Click here to read this blog in English.
Bien avant que la COVID-19 ne limite fortement les déplacements et qu’elle ne fasse imploser les budgets, la collecte des données des enquêtes auprès des ménages en vue d’évaluer les projets de développement était coûteuse et difficile. En partenariat avec Development Gateway, AidData met en œuvre un projet, financé par l’USAID, visant à promouvoir l’utilisation des données ouvertes dans le secteur de la santé en Côte d’Ivoire. Dans le cadre de ceprojet, AidData a étudié des techniques qui permettront aux évaluateurs du programme d'analyser les impacts des projets dans les zones enclavées où l’accès aux données est plus difficile.
Ces techniques s’appuient sur d’autres sources de données appelées surfaces prédites. Un exemple de surface prédite est les données de l’Institute for Health Metrics and Evaluation (IHME) qui a essentiellement regroupé - ou interpolé - un très grand nombre de microdonnées d’enquêtes et de sources de données recueillies par télédétection, avant d’estimer le nombre d’adultes âgés de 15 à 49 ans qui vivent avec le VIH. Ces estimations ont ensuite été cartographiées sur des cellules de grille de 5 km à travers 47 pays en Afrique. Ainsi, pour chaque superficie de 5x5 km, IHME estime la prévalence du VIH parmi les adultes.
Un nouveau livre blanc d’AidData étudie les promesses et les limites des sources de données prédites comme celles utilisées dans l’évaluation du développement. L’ouvrage intitulé Réduction des coûts et des obstacles aux évaluations à l’aide des données géospatiales : de nouvelles méthodes utilisant une application pour le VIH/SIDA en Côte d'Ivoire vise à aider les évaluateurs, les partenaires techniques et financiers, et les agences d’exécution des projets, à comprendre les possibilités de combiner plusieurs séries de données d’enquêtes et de données géospatiales dans le cadre de l'évaluation des projets, notamment dans le secteur de la santé.
Même si les surfaces prédites ne permettent pas de répondre aux questions relatives aux ménages - elles ne sont pas aussi précises que les données collectées par ménage sur le terrain - elles constituent un moyen prometteur d’analyse d’un résultat de développement en termes bruts (tels que le taux du VIH d’un seul village ou le taux de vaccination de tout le monde dans un rayon de 5km dans une ville).
« Le coût élevé de la collecte des données des enquêtes auprès des ménages explique pourquoi ces enquêtes démographiques et de santé sont menées une fois seulement tous les trois à cinq ans », indique Kathy Nolan, analyste-chercheur principal à AidData et co-auteur du livre blanc. « Les évaluations d’impact placent des charges de données supplémentaires sur les projets de développement. Pour mener une analyse fine d’une intervention de développement, nous devons, la plupart du temps, partir d’une hypothèse - qu’est-ce qui serait arrivé s’il n’y avait pas eu l’intervention ? - et pour cela, le projet doit recueillir les données de manière périodique: avant, pendant, à la fin et après. Cependant, pour des raisons logistiques et/ou financières, cela n’est pas toujours faisable ».
Le manque de données à ces étapes peut entraver une évaluation d’impact mais les surfaces prédites peuvent être utilisées à la place. « L’utilisation des surfaces prédites nouvellement créées peut nous aider à surmonter ce scénario d’ « absence de référence » où aucune enquête de référence n’a été menée dans les lieux de traitement ou de comparaison », ajoute Ariel BenYishay, économiste en chef et directeur du département recherche et évaluation d’AidData et co-auteur du livre blanc.
Dans le livre blanc, AidData présente les résultats des simulations effectuées à l’aide des surfaces prédites pour trois scénarios auxquels les évaluateurs du programme sont souvent confrontés, en se servant du problème de l’estimation des taux du VIH et de vaccination en Côte d’Ivoire comme cas d’étude.
- Absence de suivi : Les données des enquêtes sont disponibles pour la situation de référence, mais il n’y a pas de suivi. Ce sont plutôt les scénarios prédits qui sont utilisés pour le suivi.
- Absence de situation de référence : Les données des enquêtes sont disponibles pour le suivi, mais les surfaces prédites sont utilisées pour pallier l’absence de situation de référence.
- Absence des deux : Les surfaces prédites sont utilisées pour la situation de référence et pour le suivi.
L’avantage d’utiliser les données des enquêtes auprès des ménages (plutôt que d’établir une surface prédite) est la granularité. Les enquêtes démographiques et de santé permettent de recueillir des données sur plusieurs d’attributs. Ainsi plusieurs attributs tels que l’âge ou le revenu peuvent être liés de manière fiable à une seule observation des données. Mais la couverture constitue un grand désavantage - la plupart du temps, les enquêtes auprès des ménages sont disponibles uniquement pour un temps et des lieux très spécifiques.
Pour les surfaces prédites, les avantages et les désavantages sont inversés. La couverture est un avantage. « Par exemple, les chercheurs de l’IHME ont développé des couches prédites pour un ensemble complet d’indicateurs de développement pour toute l’Afrique subsaharienne », explique BenYishay. Mais l’absence de granularité est un inconvénient. « Les surfaces prédites peuvent uniquement refléter un changement à un certain niveau », note BenYishay. « Par exemple, vous ne pouvez utiliser une surface prédite, comme les indicateurs IHME, que pour expliquer les écarts entre deux périmètres de 5km, mais pas à l’intérieur d’un seul périmètre de 5km ».
Dans le contexte spécifique du problème de l’estimation des taux du VIH et de vaccination en Côte d’Ivoire, le scénario de l’ « absence de référence » avait le moins d’incertitude statistique grâce à la combinaison efficace des avantages de l’utilisation des données des enquêtes et des surfaces prédites. « L’important, c’est que grâce à cette méthode, les évaluateurs pourraient éventuellement utiliser une surface prédite pour leurs estimations de base et utiliser leur propre enquête pour une situation finale, ce qui permettrait de réduire de moitié le coût de l’enquête », selon Nolan.
De toute évidence, dans le scénario où seules les surfaces prédites ont été utilisées, les performances étaient meilleures que dans celui où les données des enquêtes étaient disponibles pour la situation de base. Cela peut être dû au fait que, en estimant les indicateurs du VIH, la disponibilité des données d’enquêtes hautement spécifiques provenant d’une enquête menée au début (et non à la fin) d’un projet fait apparaître effectivement les inconvénients de l’utilisation des deux types de données.
Les compromis - entre la couverture géographique plus fréquente et plus large des surfaces prédites et la capacité unique de détecter les écarts statistiquement significatifs lorsque les données granulaires des enquêtes auprès des ménages sont disponibles - constituent un thème central du livre blanc des chercheurs d’AidData. L’autre aspect est relatif au double défi des techniques statistiques nécessaires à la simulation et à l’intégration des données.
L’analyse statistique repose sur l’hypothèse critique selon laquelle un échantillon particulier de données peut représenter une certaine population avec un niveau de précision prévisible. Pour les enquêtes démographiques et auprès des ménages, cela suppose que les chercheurs disposent d’un nombre minimal viable d’observations pour être en mesure de contrôler les facteurs indépendants qui pourraient représenter les tendances reflétées dans les données.
Lorsque les données sont limitées, les chercheurs pourraient effectuer des simulations qui « échantillonnent de manière aléatoire à partir de l’échantillon » pour produire assez d’observations pour faire une prévision statistique. Même si ces simulations ont pour résultat une plus forte incertitude qu’une estimation faite à partir d’un grand nombre d’observations, les techniques de simulation permettent de visualiser et d’analyser les tendances (ou l’absence de celles-ci). Le niveau d’incertitude peut être également géré. Par exemple, prévoir le taux du VIH pour une certaine population au sein d’un district entier variera moins qu’une prévision similaire pour chaque sous-district.
Les simulations statistiques présentées dans le livre blanc sont analogues à la manière dont une surface prédite est créée à partir des données géospatiales à l’aide d’une méthode d’interpolation. Aussi bien les simulations statistiques que l’interpolation géospatiale (1) prennent un petit nombre de points de données, (2) formulent des hypothèses sur la manière dont ces points pourraient être liés et (3) extrapolent à partir des résultats d’un algorithme à un niveau plus large et plus général. Par exemple, si le taux du VIH dans une certaine zone de 5x5 km n’est pas disponible, une méthode d’interpolation pourrait permettre d’attribuer ou de remplacer cette valeur manquante en se basant sur une déduction tirée des taux du VIH dans les zones voisines où les données sont disponibles.
L’autre grande difficulté posée par l’intégration des surfaces prédites est l’intégration des données. « Nous avons dû créer des indicateurs qui correspondaient à un grand nombre de sources de données », explique BenYishay. « Cela veut dire qu’un calcul effectué pour créer une mesure comme la vaccination à l’aide d’une source de données, par exemple, doit également correspondre au calcul des taux de vaccination à l’aide d’une source de données différente composée d’attributs légèrement différents ».
Le livre blanc étudie les opportunités, les défis et les compromis inhérents au cas où les surfaces prédites devraient être intégrées dans les évaluations d’impact du développement. BenYishay met l’accent sur l’opportunité en affirmant que « les surfaces prédites peuvent couvrir des régions et des pays entiers et inclure un nombre croissant d’importantes mesures du développement, telles que les estimations de la population, l’utilisation des services de santé, l’issue des naissances et des grossesses, l’inégalité en matière de santé infantile, le niveau d’instruction, etc. ».
Les défis statistiques et d’intégration peuvent être relevés et, au fur et à mesure de l’amélioration de la disponibilité et de la précision des surfaces prédites, les évaluateurs du programme disposeront de meilleurs outils pour identifier là où une intervention particulière fonctionne réellement. « La technique de recherche, nouvelle et innovante, présentée dans ce livre blanc permet de réduire le coût de réalisation d’une évaluation d’impact sans pour autant la rendre moins rigoureuse », conclut Nolan.