Un nombre croissant de « big data » est généré par les moteurs de recherche sur Internet, comme Google. Comme les gens recherchent souvent des informations de santé publique et des questions médicales, il est possible d’utiliser les données des moteurs de recherche pour surveiller et prédire des problèmes de santé publique, comme le VIH. Les auteurs de cette étude ont évalué la faisabilité de l’utilisation des données de recherche de Google pour analyser et prédire les nouveaux cas de diagnostic du VIH aux États-Unis.

De 2007 à 2014, ils ont recueilli des données de recherche sur les mots clés de recherche Google liés au VIH aux États-Unis. Les données sur les nouveaux diagnostics de VIH par état ont été recueillies auprès des Centers for Disease Control and Prevention (CDC) et à partir du site AIDSVu.org. Ils ont développé un modèle pour prédire les cas de VIH en utilisant un sous-ensemble de mots-clés prédicteurs significatifs identifiés par la méthode LASSO (Least Absolute Shrinkage and Selection Operator) (1). En utilisant les données historiques pour créer le modèle, les données de recherche sur Google ont permis de prédire les nouveaux diagnostics de VIH de 2011 à 2014, avec une valeur R2 moyenne de 0,99 entre les cas prévus et les cas réel. Les résultats indiquent que Google Trends est un outil utilisable pour prédire les nouveaux cas de VIH au niveau d’un état. `

Les résultats de cette étude sont importants parce qu’ils se basent sur l’utilisation dans des modèles de données sociales librement disponibles sur Internet qui ne sont pas encore utilisées par les modèles actuels. Bien qu’un nombre croissant d’études intègrent des données sociales dans la recherche en santé publique, peu d’études se sont concentrées sur la façon d’intégrer ces approches pour aborder les questions liées au VIH [2]. Cette étude approfondit le champ d’étude sur l’utilisation des données sociales dans la recherche sur le VIH en suggérant que les données de recherche de Google peuvent être utilisées pour prédire les nouveaux diagnostics aux États-Unis.

 

Bien que les données de cette étude soient relativement petites par rapport à d’autres études basées sur les big data (comme les études de génomique), il est interessant de les prendre en compte car les données de Google Trends sont basées sur une moyenne de 3,5 milliards de requêtes par jour soumises par un grand nombre d’utilisateurs du Web au fil du temps. L’objectif des auteurs est que ces types de méthodologies puissent éventuellement être appliquées sur les données de Google Trends en temps réel afin de fournir aux organismes de santé publique un moyen de surveiller les crises sanitaires au jour le jour, par exemple en visualisant les tendances changeantes des nouveaux diagnostics potentiels de VIH.

Les étapes suivantes devraient être l’intégration de cartes et d’outils de visualisation basés sur ces modèles dans le suivi et la surveillance de la santé publique et du VIH.

Young SD, Zhang Q. Using search engine big data for predicting new HIV diagnoses. PLoS ONE. 2018;13(7):e0199527.