Simulateur des émissions de Gaz à Effet de Serre de l’IA générative

Ce simulateur propose une estimation des émissions de gaz à effet de serre (CO₂e) générées par les systèmes d’IA générative, en s’appuyant sur la méthode de modélisation TokenFlop, développée par Digital4Better. Il couvre les phases d’entraînement et d’inférence, intègre l’empreinte de fabrication et d’utilisation du matériel, et prend en charge les modalités texte, image, audio et vidéo.

La méthode TokenFlop est issue du programme de recherche Data4Impact, lauréat du concours d’innovation BPI/ADEME, conduit par Digital4Better pour développer des outils rigoureux d’évaluation de l’impact environnemental du numérique. Les résultats fournis sont des ordres de grandeur, obtenus à partir d’une modélisation théorique basée sur des données accessibles au public. Ils ne constituent pas une mesure directe des émissions réelles. Ces résultats dépendent des paramètres saisis et des hypothèses retenues ; veuillez vous reporter à la méthodologie pour en comprendre la portée et les limites.

Découvrez la méthodologie Tokenflop

Modèle de modélisation FLOPs → GPUh → CO₂e

Méthode de modélisation bottom-up basée sur l’estimation de la charge de calcul (FLOPs) induite par les usages du modèle, convertie en temps GPU (GPUh), puis en consommation énergétique et émissions GES. Intègre l’empreinte de fabrication des équipements selon une logique ACV (ISO 14040 / ITU L.1410).

1. Unité de base et données d’entrée

L’unité de base retenue est le token — unité discrète manipulée par le modèle pour représenter une entrée ou une sortie. Selon la modalité :

Texte : fragment de mot (3–4 caractères en moyenne). 1 000 tokens ≈ 750 mots en anglais.
Image : patch spatial (ex. image 512×512 avec patches 16×16 → 1 024 tokens).
Audio : token temporel issu d’un codec (ex. clip 10s à 24 kHz, 320 downscale, 8 canaux → ~6 000 tokens).
Vidéo : token spatial par frame × nombre de frames (ex. 4s à 24fps, 512×512, 16×16 patches → ~98 304 tokens).

2. Estimation de la charge de calcul (FLOPs)

La charge de calcul est estimée selon la phase d’usage :

Phase	Formule retenue
Entraînement	`FLOP ≈ 6 × P_total × T_training`
Fine-tuning	`FLOP ≈ (2 × P_total + 4 × P_tunable) × T_training`
Inférence — traitement du prompt texte	`FLOP ≈ 1 × P_active × T_input`
Inférence — génération de texte	`FLOP ≈ 2 × P_active × T_output`
Génération d’image	`FLOP ≈ 2 × P_active × N_activation`
Génération vidéo (spatio-temporelle)	`FLOP ≈ S × (2 × P_active × N_activation × F + 2 × (F×T)² × d)`

Hypothèse retenue pour l’inférence : présence systématique d’un cache KV, réduisant le coût du prompt à ~1 FLOP par paramètre/token.

3. Conversion en temps GPU (GPUh)

D_gpu = FLOP / (C_gpu × MFU)

C_gpu : capacité théorique du GPU en FLOP/h
MFU (Model FLOP Utilization) : pourcentage de la capacité théorique effectivement utilisable, estimé entre 25% et 50% selon le type de modèle et de matériel (source : NVIDIA Benchmarks). Valeur retenue par défaut : 40% pour l’entraînement.

4. Conversion en consommation énergétique

E_gpu = D_gpu × P_gpu
C_gpu_datacenter = E_gpu × PUE

P_gpu : puissance en Watts du GPU (ex. 700 W pour un H100)
PUE (Power Usage Efficiency) : efficacité énergétique du datacenter. Valeur retenue par défaut : 1,2

5. Impact environnemental opérationnel

I_operational = E_gpu × F_energy

F_energy : facteur d’émission électrique selon la région, issu du référentiel open data Digital4Better (ex. 0,420 kgCO₂e/kWh pour les États-Unis, 0,040 kgCO₂e/kWh pour la France).

6. Impact de fabrication (empreinte intrinsèque)

I_embodied = I_manufacturing × (D_usage / D_lifespan)

L’empreinte de fabrication est allouée proportionnellement au temps d’utilisation sur la durée de vie estimée de l’équipement (5 ans par défaut). Les composants serveur hors GPU (CPU, RAM, stockage, châssis) sont répartis proportionnellement au nombre de GPUs par serveur.

7. Application illustrative — Llama 3.1 405B

À titre de vérification de cohérence, TokenFlop a été appliqué au modèle open source Llama 3.1 (405B paramètres), entraîné sur ~15 000 milliards de tokens avec 24 576 GPUs H100 :

Modèle	Temps GPU estimé	Émissions estimées
Llama 3.1 8B	1,46 M GPUh	~420 tCO₂e
Llama 3.1 70B	7,0 M GPUh	~2 040 tCO₂e
Llama 3.1 405B	30,84 M GPUh	~8 930 tCO₂e

Écart avec les données Hugging Face : < 2%, ce qui valide la cohérence de la modélisation.

Pour l’inférence, avec un prompt moyen de 400 tokens sur Llama 3.1 405B : ~0,1 gCO₂e par requête.

Hypothèses et limites

Les résultats produits par ce simulateur sont des estimations par modélisation théorique. Ils ne constituent pas une mesure directe des émissions réelles.

Les principales sources d’incertitude sont :

Les caractéristiques réelles des modèles (souvent confidentielles) : données d’entraînement, MFU effectif, nombre de dimensions cachées.
L’absence de données LCA fiables sur certains équipements spécifiques à l’IA.
Les spécificités des TPU, FPGA et ASIC ne sont pas prises en compte.
L’adéquation mémoire du modèle avec le matériel sélectionné n’est pas vérifiée.

Cette méthode est adaptée à la comparaison relative de scénarios, au cadrage de projets IA, et à l’évaluation prospective — non à un reporting certifié d’émissions.

Bibliographie

[8] NVidia (2025). Llama 3.1 70B DGXC Benchmarking.

[1] Schwartz, R., et al. (2020). Green AI. Communications of the ACM. arXiv

[2] IEA (2024). Energy and AI. iea.blob.core.windows.net

[3] ISO 14040/14044. Environmental management — Life Cycle Assessment.

[4] ITU L.1410. Methodology for the assessment of the environmental life cycle impact of ICT goods, networks and services.

[5] Meta (2024). The Llama 3 Herd of Models. arXiv

[6] Digital4Better. Open Data Repository. digital4better.github.io/data

[7] Digital4Better. Applied Methodology for Generative AI. digital4better.github.io/methodology/ai