IA pour la Recherche Automatique : Feuille de route et Guide de l'utilisateur
AI for Auto-Research: Roadmap & User Guide
May 18, 2026
Auteurs: Lingdong Kong, Xian Sun, Wei Chow, Linfeng Li, Kevin Qinghong Lin, Xuan Billy Zhang, Song Wang, Rong Li, Qing Wu, Wei Gao, Yingshuo Wang, Shaoyuan Xie, Jiachen Liu, Leigang Qu, Shijie Li, Lai Xing Ng, Benoit R. Cottereau, Ziwei Liu, Tat-Seng Chua, Wei Tsang Ooi
cs.AI
Résumé
La recherche assistée par l'IA franchit un seuil : des systèmes entièrement automatisés peuvent désormais générer des articles de recherche pour aussi peu que 15 dollars, tandis que des agents à long horizon exécutent des expériences, rédigent des manuscrits et simulent des critiques avec un apport humain minimal. Pourtant, cette frontière de productivité révèle un problème d'intégrité plus profond : sous la pression scientifique, même les LLMs de pointe fabriquent encore des résultats, passent à côté d'erreurs cachées et échouent à juger de la nouveauté de manière fiable. En étudiant les développements jusqu'en avril 2026, nous présentons une analyse de bout en bout de l'IA sur l'ensemble du cycle de vie de la recherche, organisée en quatre phases épistémologiques : Création (génération d'idées, revue de littérature, codage & expériences, tableaux & figures), Rédaction (rédaction d'articles), Validation (évaluation par les pairs, réponse & révision) et Dissemination (posters, diapositives, vidéos, médias sociaux, pages de projet et agents interactifs). Nous identifions une frontière nette et dépendante de l'étape entre assistance fiable et autonomie non fiable : l'IA excelle dans les tâches structurées, ancrées dans la récupération d'informations et médiatisées par des outils, mais reste fragile pour les idées véritablement nouvelles, les expériences de niveau recherche et le jugement scientifique. Les idées générées se dégradent souvent après implémentation, le code de recherche est loin derrière les références de correspondance de motifs, et les systèmes autonomes de bout en bout n'ont pas encore atteint de manière cohérente les normes d'acceptation des grandes revues. Nous montrons en outre qu'une automatisation accrue peut obscurcir plutôt qu'éliminer les modes de défaillance, faisant de la collaboration gouvernée par l'humain le paradigme de déploiement le plus crédible. Enfin, nous fournissons une taxonomie structurée, une suite de référence et un inventaire d'outils, des principes de conception inter-étapes, et un manuel pratique destiné aux praticiens, avec des ressources maintenues sur notre page de projet.
English
AI-assisted research is crossing a threshold: fully automated systems can now generate research papers for as little as $15, while long-horizon agents can execute experiments, draft manuscripts, and simulate critique with minimal human input. Yet this productivity frontier exposes a deeper integrity problem: under scientific pressure, even frontier LLMs still fabricate results, miss hidden errors, and fail to judge novelty reliably. Studying developments through April 2026, we present an end-to-end analysis of AI across the complete research lifecycle, organized into four epistemological phases: Creation (idea generation, literature review, coding & experiments, tables & figures), Writing (paper writing), Validation (peer review, rebuttal & revision), and Dissemination (posters, slides, videos, social media, project pages, and interactive agents). We identify a sharp, stage-dependent boundary between reliable assistance and unreliable autonomy: AI excels at structured, retrieval-grounded, and tool-mediated tasks, but remains fragile for genuinely novel ideas, research-level experiments, and scientific judgment. Generated ideas often degrade after implementation, research code lags far behind pattern-matching benchmarks, and end-to-end autonomous systems have not yet consistently reached major-venue acceptance standards. We further show that greater automation can obscure rather than eliminate failure modes, making human-governed collaboration the most credible deployment paradigm. Finally, we provide a structured taxonomy, benchmark suite, and tool inventory, cross-stage design principles, and a practitioner-oriented playbook, with resources maintained at our project page.