Extraction des données CIQUAL
Les données CIQUAL sont une ressource extrêmement riche : il faut les réduire avant de pouvoir en faire un exemple facielement utilisable pour un cours de R ou de statistique.
Nous avons déterminé les critères suivants :
- il ne doit pas y avoir plus d’une dizaine d’observations par groupe,
- il doit y avoir un mélange de variables qualitatives et de variables quantitatives
- il faut plusieurs “blocs” de données (des groupes de variables)
- il ne faut pas de valeurs manquantes
- il faut éviter les variables présentant des effets de seuil ou de plafond
Les données
Les données utilisées se trouvent dans le tableau Table Ciqual 2020_FR_2020 07 07.xls
.
Fruits et légumes
Le code pour les fruits et légumes est le code “02”, qui contient les sous-graoupes alimentaires
0201
– “légumes”,0202
– “pommes de terre et autres tubercules”,0203
– “légumineuses”,0204
– “fruits”,0205
– “fruits à coque et graines oléagineuses”.
J’ai sélectionné les sous-groupes 0201
et 0204
uniquement pour la suite. Pour les aliments concernés, j’ai choisi les variables :
alim_nom_fr
– le nom de l’aliment, qui devient la variablenom
,alim_ssgrp_nom_fr
– le groupe, qui devient la variablegroupe
,Energie, Règlement UE N° 1169/2011 (kcal/100 g)
– l’énergie, en kCal par 100g de fruit, qui devient la variableEnergie
,Eau (g/100 g)
, qui devient la variableEau
,Protéines, N x facteur de Jones (g/100 g)
, qui devient la variableProteines
,Glucides (g/100 g)
, qui devient la variableGlucides
,Lipides (g/100 g)
, qui devient la variableLipides
,Sucres (g/100 g)
, qui devient la variableSucres
,Fibres alimentaires (g/100 g)
, qui devient la variableFibres
,Polyols totaux (g/100 g)
, qui devient la variablePolyols
, où toutes les valeurs manquantes sont remplacées par 0,Alcool (g/100 g)
, qui devient la variableAlcool
,Acides organiques (g/100 g)
, qui devient la variableAcidesOrganiques
,Calcium (mg/100 g)
, qui devient la variableCalcium
,Cuivre (mg/100 g)
, qui devient la variableCuivre
,Fer (mg/100 g)
, qui devient la variableFer
,Magnésium (mg/100 g)
, qui devient la variableMagnesium
,Manganèse (mg/100 g)
, qui devient la variableManganese
,Phosphore (mg/100 g)
, qui devient la variablePhosphore
,Potassium (mg/100 g)
, qui devient la variablePotassium
,Zinc (mg/100 g)
, qui devient la variableZinc
,Vitamine C (mg/100 g)
, qui devient la variableVitamineC
et écarté tous les fruits et légumes ayant des données manquantes dans les colonnes
Une première visualisation intéressante concerne la teneur en sucres en fonction des deux sous-groupes que nous avons choisis : légumes ou fruits. La représentation que nous avons choisie
Blocs
On obtient plusieurs blocs de données :
- le bloc “nutrition” : teneurs en lipides, glucides, protéines, eau et fibres.
- le bloc “minéraux”,
- des variables supplémentaires :
- le nom de l’aliment,
- son groupe,
- son sous-groupe,
- sa teneur en vitamine C.
Ces blocs donne accès à un éventail de possibilités très large en termes d’exercice de traitement des données, de visualisation et de statistiques.