Vers une revue systématique plus efficace : peut-on se soustraire à une double revue humaine avec l’IA ?

📅 07 Juillet 2025 

Introduction

Ce que dit PRISMA 2020

Performance des outils de machine learning : que disent les études ?​

Noé : un modèle hybride supervisé, inspiré du screening hiérarchisé

IA contre erreur humaine

Vers une adoption professionnelle de l’IA dans le screening

Conclusion : peut-on se passer d’une double revue humaine grâce à l’IA ?

Introduction

Traditionnellement, deux reviewers sont mobilisés pour limiter les biais. Mais avec
l’émergence des outils basés sur le machine learning (ML), l’approche a été bouleversée.
Sont-ils assez fiables pour se substituer au second reviewer ?

Ce que dit LA GUIDANCE PRISMA 2020 EXPLANATION AND ELABORATION: UPDATED GUIDANCE AND EXEMPLARS FOR REPORTING SYSTEMATIC REVIEWS

Dans la guidance PRISMA 2020 , il est clairement indiqué que les outils d’automatisation¹ peuvent être utilisés : 

« whether they were used in lieu of or in addition to human reviewers »

Concrètement, cela veut dire qu’un seul reviewer humain peut être assisté par un outil d’automatisation, notamment pour l’exclusion des études manifestement non pertinentes ou pour prioriser le screening

Il y a-t-il des conditions où l’IA peut remplacer un second reviewer ? 

Dans la guidance PRISMA 2020, pour cela il faut : 

  • Déclarer clairement l’usage de l’outil, sa fonction (tri, exclusion, priorité) et son rôle dans la chaîne de décision.
  • Montrer que l’outil a été validé et qu’un seuil de performance acceptable a été atteint (Chaque solution fixe un seuil de performance, chez Noé nous l’avons fixé à plus de 95%).
  • Prévoir une revue humaine des cas ambigus ou limites.

Performance des outils de machine learning : que disent les études ?

Plusieurs outils comme AbstrackR ou Rayyan ont déjà montré que l’IA pouvait accélérer le screening des revues systématiques, avec une qualité acceptable².
Mais jusqu’ici, peu d’études comparaient directement ces approches à un double screening humain.

L’étude publiée en mars 2025 dans Research Synthesis Methods intitulé Machine learning for identifying randomised controlled trials when conducting systematic reviews: Development and evaluation of its impact on practice³ change la donne : elle propose une comparaison claire de deux stratégies d’intégration de l’IA, et permet d’évaluer précisément son efficacité face aux méthodes traditionnelles.

Stratégie 1 – Screening parallèle : l’IA comme reviewer à part entière

Dans cette stratégie, l’IA réalise le screening complet de tous les résumés, exactement comme le ferait un reviewer humain. 

En parallèle, un reviewer humain lit et sélectionne de manière indépendante les mêmes abstracts.

  • Chaque système (IA et humain) émet son propre jugement sur chaque résumé.
  • En cas de désaccord, un arbitrage est réalisé (par consensus ou via un troisième avis). C’est donc un double screening complet, avec un reviewer remplacé par une IA.

Résultats :

  • Rappel (proportion d’articles pertinents correctement inclus) > 99,8 %
  • Gain de temps significatif (~45 %)
  • Très faible risque d’omission 

Stratégie 2 – Screening hiérarchisé : l’IA filtre, l’humain vérifie uniquement ce qu’elle propose

Dans ce modèle, l’IA passe seule sur l’ensemble des abstracts en premier et classe les documents en deux catégories : potentiellement pertinents vs probablement non pertinents.

  • Seuls les résumés jugés pertinents par l’IA sont ensuite relus par un reviewer humain.
  • Les autres sont directement exclus, sans relecture humaine.

C’est une approche encore plus rapide, mais qui repose sur une confiance forte dans le tri initial réalisé par l’algorithme.

Résultats :

  • Gain de temps très élevé (~74 %)
  • Rappel légèrement inférieur (97%) : certaines études pertinentes marginales peuvent être perdues, car jamais revues par un humain.

Conclusion de l’étude : une collaboration IA + humain optimale

L’étude conclut que le meilleur compromis entre qualité de sélection et efficacité temporelle est obtenu avec la stratégie de screening parallèle, où l’IA remplace un reviewer humain, tout en conservant un second reviewer réel.

Ce modèle préserve un haut niveau de fiabilité (rappel > 99,8 %), tout en réduisant considérablement la charge de travail.

À l’inverse, le screening hiérarchisé – bien que plus rapide – peut conduire à écarter par erreur certains articles pertinents, ce qui peut nuire à la robustesse d’une revue systématique.

Noé utilise un algorithme de machine learning entraîné pour proposer une première sélection d’articles, tout en maintenant l’expertise humaine au cœur de la décision.
Le professionnel peut :

  • Valider ou corriger les suggestions de l’IA
  • Affiner progressivement l’apprentissage automatique
  • Conserver la supervision sur l’ensemble du processus de sélection.

En pratique, cela permet de diviser le temps de screening par deux, sans compromettre la fiabilité ni la transparence de la méthode.

Noé : un modèle hybride supervisé, inspiré du screening hiérarchisé

Noé ne correspond pas exactement aux deux scénarios décrits dans l’étude, mais s’en inspire pour proposer un modèle hybride sécurisé. Contrairement au screening hiérarchisé “pur” (stratégie 2), Noé ne filtre pas les articles en excluant automatiquement les moins pertinents. Il automatise la requête de recherche, rapatrie les résultats, puis applique une priorisation algorithmique pour aider l’utilisateur à identifier les articles les plus prometteurs. Le professionnel humain reste impliqué pour valider ou rejeter chaque suggestion. Ce fonctionnement permet de conserver un haut niveau de contrôle, tout en réduisant fortement la charge de travail, à tel point qu’un seul reviewer humain, assisté de l’IA, peut suffire dans de nombreux contextes. Noé permet ainsi de se passer d’un second reviewer, tout en respectant les exigences de transparence, de traçabilité et de rigueur méthodologique définies par PRISMA.

IA contre erreur humaine

Au-delà des gains d’efficacité, l’apport de l’IA se manifeste aussi dans la réduction des erreurs humaines, même chez les reviewers expérimentés. C’est ce que démontrent plusieurs études, ouvrant la voie à une réflexion plus large sur la fiabilité du screening manuel.

Plusieurs études ont montré que les erreurs de screening sont fréquentes, même chez des reviewers humains expérimentés. Selon Waffenschmidt et al. (2019)⁴, jusqu’à 13 % des études pertinentes peuvent être exclues à tort lors d’un screening manuel en simple reviewer.

L’utilisation d’un algorithme permet de :

  • Réduire les variabilités inter-individuelles (liées à la subjectivité ou à la fatigue),
  • Appliquer des critères de sélection de manière constante, diminuant ainsi le risque
    d’exclusion erronée.
 

C’est ce que confirment également Gates et al. (2019)², qui montrent qu’une IA bien 5
entraînée peut atteindre des performances supérieures à celles d’un reviewer humain
seul, tout en réduisant le temps de traitement de 30 à 50 %.

Dans cette perspective, utiliser une IA permet non seulement de gagner en efficacité,
mais aussi en sécurité méthodologique, en limitant les biais de sélection.

Vers une adoption professionnelle de l’IA dans le screening

Noé s’inscrit pleinement dans l’évolution méthodologique des revues systématiques, en
proposant une IA dédiée, déjà opérationnelle, qui respecte les standards de transparence et de validation définis par PRISMA 2020.

Loin d’être un simple concept, Noé est conçu pour une intégration concrète dans les
pratiques professionnelles, avec :

  • une supervision humaine systématique,
  • un apprentissage progressif des critères de sélection spécifiques à chaque projet,
  • et une traçabilité de toutes les décisions.

Noé offre une solution équilibrée, fiable et immédiatement mobilisable, qui anticipe les standards à venir.

Conclusion : peut-on se passer d'une double revue humaine grâce à l'IA ?

L’analyse des recommandations PRISMA et des dernières publications montre qu’il est désormais envisageable de remplacer un reviewer humain par une IA bien entraînée, sans compromettre la qualité du screening.

Les approches comme le screening supervisé permettent de combiner rapidité, fiabilité et traçabilité, à condition que l’humain reste impliqué dans la validation finale. Autrement dit, une double revue humaine n’est plus toujours indispensable : Un reviewer humain, assisté par une IA, peut suffire dans de nombreux contextes, à condition que l’outil utilisé respecte les standards de transparence et permette un contrôle humain clair.

C’est précisément ce que propose Noé, qui s’inscrit dans cette nouvelle logique hybride. Mais au-delà de Noé, la question n’est plus de savoir si l’IA peut remplacer un reviewer, mais dans quelles conditions elle peut le faire sans nuire à la rigueur scientifique. Et aujourd’hui, certaines de ces conditions sont réunies.

Références bibliographiques :

  • Tricco, A. C., Lillie, E., Zarin, W., O’Brien, K. K., Colquhoun, H., Levac, D., … & Straus, S. E. (2021). PRISMA 2020 explanation and elaboration: updated guidance and exemplars for reporting systematic reviews. BMJ, 372, n160. https://doi.org/10.1136/bmj.n160

  • Page, M. J., McKenzie, J. E., Bossuyt, P. M., Boutron, I., Hoffmann, T. C., Mulrow, C. D., … & Moher, D. (2021). The PRISMA 2020 statement: an updated guideline for reporting systematic reviews. BMJ, 372, n71. https://doi.org/10.1136/bmj.n71

  • Qin, X., Yao, M., Luo, X., Liu, J., Ma, Y., Liu, Y., Li, H., Deng, K., Zou, K., Li, L., & Sun, X. (2025). Machine learning for identifying randomised controlled trials when conducting systematic reviews: Development and evaluation of its impact on practice. Research Synthesis Methods, 16(3), 350–363. https://doi.org/10.1007/rsm.2025.3

  • Waffenschmidt, S., et al. (2019). Single screening versus conventional double screening for study selection in systematic reviews: a methodological study. BMC Medical Research Methodology, 19,132. https://doi.org/10.1186/s12874-019-0770-1

  • Gates, A., Guitard, S., Pillay, J., Elliott, S.A., Dyson, M.P., Newton, A.S., & Hartling, L. (2019). Performance and usability of machine learning for screening in systematic reviews: a comparative evaluation of Abstrackr and a novel tool using a randomized controlled trial dataset. Systematic Reviews, 8, 278. https://doi.org/10.1186/s13643-019-1185-3

Partagez cet article :

Essayez NOE : Votre outil de revue de la littérature médicale !​

Réservez une démo pour découvrir comment NOE peut simplifier votre processus de recherche. Comment réserver :

1. Cliquez sur le bouton "Réserver".
2. Choisissez une heure.
3. Confirmez votre créneau.

Les places sont limitées. Réservez maintenant !

Bientôt disponible!