[Challenge Green Data For Health 2023] 3e prix pour le prototype OFB de base de données centrale sur les produits phytopharmaceutiques

Données de l'événement
Organisateur(s)
Ecolab (CGDD)
Commissariat général au développement durable (CGDD)
Contact
Antoine Camus (OFB) - antoine.camus (a) ofb.gouv.fr
-
Image

Nombre de substances issues des produits phytopharmaceutiques (PPP) ont un impact démontré sur la santé et l’environnement. S’il existe en France et en Europe plusieurs sources de données, elles sont souvent gérées par des structures et sur des référentiels différents. Pour y remédier, l’Office français de la biodiversité (OFB) a développé un prototype de base de données centrale, dans le cadre du Challenge Green Data For Health 2023 et avec l’aide précieuse de bénévoles. L'outil "C3PO" a reçu le 3e prix ! Il s'adresse à tous les acteurs liés à la thématique, pour faciliter les études scientifiques et appuyer les politiques publiques.

Une base centrale pour faciliter la réutilisation des données sur les produits phytopharmaceutiques

Contexte : remédier à un frein technique afin d'étudier l'impact des PPP

De nombreuses substances entrant dans la composition des produits phytopharmaceutiques (PPP) ont un impact présumé ou démontré sur :

  • la santé (Inserm, 2021)
  • l’environnement : notamment le déclin de la biodiversité (Sánchez-Bayo & Wyckhuys, 2019 ; Rigal et al. 2023 ; Mamy, Pesce & Sanchez et al, 2022), la contamination des sols (European Environment Agency, 2022), et des eaux souterraines et de surface (Froger et al., 2023).

Pour mener des études sur ces impacts, des données de référence sont nécessaires. Or, s’il existe en France et en Europe plusieurs sources de données relatives aux produits phytopharmaceutiques et aux pesticides, ces dernières, souvent gérées par des structures différentes, ne reposent pas systématiquement sur des référentiels communs. Ainsi dans la pratique il s’avère complexe de faire le lien entre les informations contenues dans ces différentes bases de données (Générations Futures, 2023).

Ce besoin concerne ainsi les structures travaillant sur des thématiques liées aux pressions exercées par les substances et produits phytopharmaceutiques. Ce sont notamment les institutions publiques et gouvernementales, les organismes de recherche, les bureaux d'étude ou encore les associations.

Un intérêt scientifique et pour les politiques publiques

Cette nouvelle base de données C3PO facilitera les valorisations et l’exploitation scientifique des données, exemples :

  • utilisation directe : sur quelle culture telle substance de la BNV-D est-elle autorisée ? ,
  • valorisations potentielles multiples en la couplant avec les données spatialisées : cartographier les achats de substances actives en fonction de leur toxicité, étudier l’effet des périodes d’interdiction au niveau européen de certaines substances sur les achats...

Outre la réappropriation par des études scientifiques, la base de données C3PO permettra également d'appuyer les politiques publiques, exemples :

  • automatiser la préparation de l’arrêté annuel établissant la liste des substances définies à l'article L. 213-10-8 du code de l'environnement relatif à la redevance pour pollutions diffuses, travail nécessitant de croiser les données de la BNV-D, d’Agritox, de la EU PDB et de l’ATP,
  • croiser les données de ventes et de toxicité des substances actives pesticides dans le cadre de l’étude amont à la révision des arrêtés surveillance et évaluations, avec l'automatisation du calcul de l'indicateur de potentiel toxique (PoTox).

Objectif : "connecter" des sources de données ouvertes de référence

Parmi les sources de données sur les PPP, la BNV-D (Banque nationale des ventes de produits phytopharmaceutiques par les Distributeurs agréés), dont la diffusion des données est assurée par l’OFB, occupe une place particulière. En effet, elle est la meilleure base de données ouvertes disponible en France pour approximer la pression exercée par ces produits sur la santé et l’environnement.

Les données BNV-D proviennent des déclarations de ventes et achats de PPP, mais ne comportent pas d'informations relatives à certaines caractéristiques des produits et des substances actives qui les composent telles que :

  • les données de toxicité/écotoxicité,
  • les usages (produits autorisés selon les cultures...),
  • ou encore les fonctions (herbicides, fongicides, insecticides…) .

En bref

  • Comment croiser et faciliter la réutilisation des diverses données existantes sur les pesticides afin d’enrichir les analyses menées sur ces derniers ?
  • Comment mettre à disposition de tous (chercheurs et autres structures réalisant des études sur les pesticides) ces données à partir d’un point d’accès unique ?

Celles-ci sont dans d’autres sources de données ouvertes de référence aux niveaux français (Agritox, E-phy, référentiels “paramètres“ et “groupes de paramètres” du Sandre) et européen (EU Pesticides Database, tableau d’entrées harmonisées disponible à l’annexe VI du règlement CLP).

Résultat : C3PO est un prototype concluant

Une structure et un fonctionnement aboutis

Partant de la liste des PPP de la Base nationale de vente Distributeurs (BNV-D), C3PO consiste en un enrichissement de ces données avec d’autres informations (toxicité/écotoxicité, état d’autorisation, cultures autorisées, etc.) issues de différentes bases de données spécialisées.
En image, chaque couple de cercles traduit le croisement « base de données spécialisée/ C3PO » et indique le nombre de substances :

  • dans C3PO, liste issue de la BNV-D (cercle de droite),
  • de la base de données spécialisée (cercle de gauche) :
    • sans correspondance avec celles de C3PO (extrémité),
    • correspondant avec un élément de C3PO (intersection).

Perspectives : des développements à venir

Image

Le défi C3PO a été récompensé du 3e prix du jury (sur 15 défis portés au total), décerné lors de l’évènement de clôture, légitimant la pertinence de ce projet et en confortant la poursuite.
La version de C3PO à laquelle le challenge a abouti constitue une preuve de concept concluante. Le challenge GD4H a en effet permis de mettre en évidence les apports de C3PO pour faciliter les études (et leur réplicabilité) croisant diverses informations sur les pesticides.

Un cas d’usage croisant données de ventes et de toxicité/écotoxicité, et données de ventes et d’autorisation des substances a notamment été réalisé (consulter l'outil en ligne). 

Il est désormais envisagé :

  • d’intégrer d’autres sources de données ouvertes dans C3PO (e.g. référentiel liant substances actives et métabolites)
  • de rendre accessibles ses données via un service en ligne de type API, puis éventuellement d’une interface de requêtage facile d'usage.

Ressources

Le Green Data For Health 2023 : un datachallenge pour affronter un défi grâce à des bénévoles

Le Challenge Green Data for Health (GD4H) porté par l’Ecolab du Commissariat Général au Développement Durable (CGDD) permet de produire de nouveaux outils permettant de mieux mobiliser la donnée environnementale au service de la santé-environnement.

Les données environnementales existantes restent peu mobilisées pour faire émerger des associations entre expositions environnementales et pathologies humaines, le GD4H a donc lancé un Challenge permettant le développement d’outils ancrés dans la communauté de la donnée en santé-environnement afin d’adresser des problématiques partagées.

L'OFB a ainsi porté un projet de base de connaissances sur les produits phytopharmaceutiques à partir de sources ouvertes (C3PO), réunissant des informations de référence sur les PPP et les pesticides issues des bases de données suivantes : BNV-D (base « socle » du projet), Agritox, E-phy, référentiels “paramètres “ et “groupes de paramètres” du Sandre, EU Pesticides Database, tableau d’entrées harmonisées disponible à l’annexe VI du règlement CLP.

Un challenge en plusieurs phases d'octobre 2022 jusqu'au printemps 2023

  1. Automne 2022 : définition des défis (ciblage des types de défis par l’instance de pilotage du Data Challenge)
  2. Mi-décembre 2022 – Fin février 2023 : expertisation des défis (spécification des défis par le comité de porteurs santé-environnement)
  3. Mars - avril 2023 : recrutement et inscription des bénévoles aux profils divers (data journalist, data analyst, data scientist, data engineer, développeurs front-end ou fullstack, …)
  4. 6 avril 2023 : évènement de lancement du Datachallenge (rencontre entre les porteurs de défis et les bénévoles)
  5. avril à juin 2023 :production par les bénévoles encadrés par les porteurs de défis (OFB pour le défi C3PO)
  6. 8 juin 2023 : évènement de clôture et remise des prix par le jury

Les différentes étapes menées pour aboutir à la naissance de C3PO au cours du challenge

La base de données C3PO a été créée à partir de l’enrichissement automatisé des données de la BNV-D avec les autres sources de données. La liste des produits et substances contenus dans C3PO est en effet issue d’une extraction de la dernière version en vigueur des données ouvertes de la BNV-D. Il ne s’agit donc pas à ce stade d’un référentiel holistique sur les pesticides, mais d’un enrichissement des données de la BNV-D avec des informations de référence contenues dans les autres sources de données.

Les étapes suivies au cours du Challenge pour parvenir à la première version de la base C3PO (preuve de concept) ont été :

  1. Élaboration d’un modèle et d’un dictionnaire de données décrivant le contenu (schémas, tables et leurs attributs, relations entre tables)
  2. Rédaction de scripts Notebook Jupyter (python) permettant d'automatiser la génération des données qui seront ensuite intégrées
  3. Rédaction de scripts SQL permettant l’intégration des données générées par les scripts Notebook Jupyter

Grâce à ces réalisations, la base de données peut désormais être mise à jour automatiquement par déclenchement des scripts Notebook Jupyter et SQL.

Références

Aller plus loin

Dataviz - Les produits phytopharmaceutiques en France, évolution des ventes entre 2009 et 2021 | Dataviz | avril 2023

Les produits phytopharmaceutiques en France - évolution des ventes entre 2009 et 2021 : que nous apprend la Banque nationale des Ventes de produits phytopharmaceutiques par les distributeurs agréés (BNV-D) ? Cette Dataviz porte sur les données ouvertes des achats et ventes, dont les plus récentes (année 2021) ont été mises en ligne en janvier 2023.

Dataviz-Phytosanitaires-France

Pollutions chimiques | Page éditoriale

Réduire les pollutions chimiques et leurs conséquences nécessite une connaissance fine des polluants chimiques, de leur nature, leurs particularités et les mécanismes qui entrent en jeu, ainsi que de d'outils à la fois techniques et réglementaires afin de pouvoir agir.