AutoResearch AI : Vers l'automatisation de la recherche propulsée par l'IA pour la découverte scientifique

Résumé

La recherche scientifique est remodelée par des systèmes d'IA qui dépassent l'assistance isolée pour s'orienter vers des flux de travail à plus long horizon, couvrant l'ancrage dans la littérature, la génération d'hypothèses, l'expérimentation, la validation, le rapport et la révision. Ce changement marque une transition de l'IA au niveau des tâches pour la science vers une automatisation de la recherche au niveau du flux de travail. Pourtant, les systèmes actuels restent fragmentés, différant par leur autonomie, leur portée de domaine, leur environnement d'exécution, leur mécanisme de validation et leur supervision humaine, tout en continuant à lutter avec la préservation des preuves, la reproductibilité, le rejet des directions faibles, la traçabilité de la provenance, la robustesse inter-domaines et la clôture scientifique responsable. Cette étude examine ces développements à travers l'AutoResearch, définie comme le spectre développemental de l'automatisation des flux de travail scientifiques alimentée par l'IA. En son sein, la Vibe Research désigne la zone pilotée par l'humain, celle de l'assistance par invites et de l'exécution vérifiée par l'humain, tandis que les systèmes émergents dirigés par l'IA coordonnent des portions plus grandes de la boucle de découverte sans atteindre une autonomie robuste. Nous analysons comment les systèmes de recherche redistribuent le contrôle, les preuves, l'exécution, la validation et la responsabilité à travers les flux de travail, et organisons le domaine autour de cinq conditions de flux de travail : l'ancrage dans la littérature et la recherche ; la formation d'hypothèses et la planification ; l'expérimentation et l'utilisation d'outils ; le retour d'information, la validation et la révision ; et le rapport et la communication des connaissances. Nous synthétisons en outre les systèmes de scientifique IA, les cadres de co-recherche à initiative mixte, les bancs d'essai, les déploiements dans des domaines et les infrastructures open-source. Enfin, nous proposons cinq dimensions d'évaluation — nouveauté, validité, impact, fiabilité et provenance — et montrons que l'autonomie d'AutoResearch est conditionnée par le domaine, étant plus crédible dans des contextes structurés, exécutables et rapidement vérifiables, mais limitée dans des contextes incarnés, différés, hétérogènes, éthiques ou institutionnellement responsables.

English

Scientific research is being reshaped by AI systems that move beyond isolated assistance toward longer-horizon workflows spanning literature grounding, hypothesis generation, experimentation, validation, reporting, and revision. This shift marks a transition from task-level AI for science to workflow-level research automation. Yet current systems remain fragmented, differing in autonomy, domain scope, execution environment, validation mechanism, and human oversight, while still struggling with evidence preservation, reproducibility, weak-direction rejection, provenance tracking, cross-domain robustness, and accountable scientific closure. This survey examines these developments through AutoResearch, defined as the developmental spectrum of AI-powered scientific workflow automation. Within it, Vibe Research denotes the human-steered region of prompt-based assistance and human-verified execution, whereas emerging AI-led systems coordinate larger portions of the discovery loop without achieving robust autonomy. We analyze how research systems redistribute control, evidence, execution, validation, and accountability across workflows and organize the field around five workflow conditions: literature and research grounding; hypothesis formation and planning; experimentation and tool use; feedback, validation, and review; and reporting and knowledge communication. We further synthesize AI scientist systems, mixed-initiative co-research frameworks, benchmarks, domain deployments, and open-source infrastructures. Finally, we propose five evaluation dimensions--novelty, validity, impact, reliability, and provenance--and show that AutoResearch autonomy is domain-conditioned, being more credible in structured, executable, and rapidly verifiable settings but limited in embodied, delayed, heterogeneous, ethical, or institutionally accountable contexts.