AutoResearch AI: Naar AI-gestuurde onderzoeksautomatisering voor wetenschappelijke ontdekkingen

Samenvatting

Wetenschappelijk onderzoek wordt hervormd door AI-systemen die verder gaan dan geïsoleerde ondersteuning en zich richten op workflows met een langere horizon, die literatuurverankering, hypothesengeneratie, experimentatie, validatie, rapportage en revisie omvatten. Deze verschuiving markeert een overgang van taakniveau-AI voor wetenschap naar onderzoeksautomatisering op workflowniveau. Toch blijven huidige systemen gefragmenteerd, met verschillen in autonomie, domeinbereik, uitvoeringsomgeving, validatiemechanisme en menselijk toezicht, terwijl ze nog steeds worstelen met bewijsbewaring, reproduceerbaarheid, afwijzing van zwakke richtingen, herkomstregistratie, cross-domein robuustheid en verantwoorde wetenschappelijke afsluiting. Dit overzicht onderzoekt deze ontwikkelingen via AutoResearch, gedefinieerd als het ontwikkelingsspectrum van AI-gestuurde automatisering van wetenschappelijke workflows. Binnen dit spectrum staat Vibe Research voor het mensgestuurde gebied van promptgebaseerde ondersteuning en door mensen geverifieerde uitvoering, terwijl opkomende AI-geleide systemen grotere delen van de ontdekkingscyclus coördineren zonder robuuste autonomie te bereiken. We analyseren hoe onderzoekssystemen controle, bewijs, uitvoering, validatie en verantwoordelijkheid herverdelen over workflows en ordenen het veld rond vijf workflowcondities: literatuur- en onderzoeksverankering; hypothesievorming en planning; experimentatie en toolgebruik; feedback, validatie en review; en rapportage en kenniscommunicatie. Verder synthetiseren we AI-wetenschappersystemen, mixed-initiative co-onderzoekskaders, benchmarks, domeinimplementaties en open-source-infrastructuren. Tot slot stellen we vijf evaluatiedimensies voor—nieuwheid, validiteit, impact, betrouwbaarheid en herkomst—en tonen aan dat AutoResearch-autonomie domeingebonden is, geloofwaardiger in gestructureerde, uitvoerbare en snel verifieerbare omgevingen, maar beperkt in belichaamde, vertraagde, heterogene, ethische of institutioneel verantwoorde contexten.

English

Scientific research is being reshaped by AI systems that move beyond isolated assistance toward longer-horizon workflows spanning literature grounding, hypothesis generation, experimentation, validation, reporting, and revision. This shift marks a transition from task-level AI for science to workflow-level research automation. Yet current systems remain fragmented, differing in autonomy, domain scope, execution environment, validation mechanism, and human oversight, while still struggling with evidence preservation, reproducibility, weak-direction rejection, provenance tracking, cross-domain robustness, and accountable scientific closure. This survey examines these developments through AutoResearch, defined as the developmental spectrum of AI-powered scientific workflow automation. Within it, Vibe Research denotes the human-steered region of prompt-based assistance and human-verified execution, whereas emerging AI-led systems coordinate larger portions of the discovery loop without achieving robust autonomy. We analyze how research systems redistribute control, evidence, execution, validation, and accountability across workflows and organize the field around five workflow conditions: literature and research grounding; hypothesis formation and planning; experimentation and tool use; feedback, validation, and review; and reporting and knowledge communication. We further synthesize AI scientist systems, mixed-initiative co-research frameworks, benchmarks, domain deployments, and open-source infrastructures. Finally, we propose five evaluation dimensions--novelty, validity, impact, reliability, and provenance--and show that AutoResearch autonomy is domain-conditioned, being more credible in structured, executable, and rapidly verifiable settings but limited in embodied, delayed, heterogeneous, ethical, or institutionally accountable contexts.