AutoResearch AI: Auf dem Weg zur KI-gestützten Forschungsautomatisierung für wissenschaftliche Entdeckungen

Zusammenfassung

Die wissenschaftliche Forschung wird durch KI-Systeme umgestaltet, die über isolierte Unterstützung hinaus zu längerfristigen Arbeitsabläufen übergehen, die Literaturverankerung, Hypothesengenerierung, Experimentierung, Validierung, Berichterstattung und Überarbeitung umfassen. Dieser Wandel markiert einen Übergang von aufgabenbezogener KI für die Wissenschaft hin zur Automatisierung von Forschungsabläufen auf Workflow-Ebene. Dennoch bleiben aktuelle Systeme fragmentiert und unterscheiden sich in Autonomie, Domänenbereich, Ausführungsumgebung, Validierungsmechanismus und menschlicher Aufsicht, während sie weiterhin mit Beweiserhaltung, Reproduzierbarkeit, Ablehnung schwacher Richtungen, Nachverfolgbarkeit der Herkunft, domänenübergreifender Robustheit und verantwortungsbewusstem wissenschaftlichem Abschluss kämpfen. Diese Untersuchung betrachtet diese Entwicklungen durch AutoResearch, definiert als das Entwicklungsspektrum der KI-gestützten Automatisierung wissenschaftlicher Arbeitsabläufe. Darin bezeichnet Vibe Research den menschlich gesteuerten Bereich der promptbasierten Assistenz und menschlich verifizierten Ausführung, während aufkommende KI-geführte Systeme größere Teile des Entdeckungszyklus koordinieren, ohne eine robuste Autonomie zu erreichen. Wir analysieren, wie Forschungssysteme Kontrolle, Evidenz, Ausführung, Validierung und Verantwortlichkeit über Arbeitsabläufe hinweg umverteilen, und ordnen das Feld um fünf Workflow-Bedingungen: Literatur- und Forschungsverankerung; Hypothesenbildung und Planung; Experimentierung und Werkzeugnutzung; Rückmeldung, Validierung und Überprüfung; sowie Berichterstattung und Wissenskommunikation. Weiterhin synthetisieren wir KI-Wissenschaftlersysteme, kooperative Co-Research-Frameworks mit gemischter Initiative, Benchmarks, Domäneneinsätze und Open-Source-Infrastrukturen. Schließlich schlagen wir fünf Bewertungsdimensionen vor – Neuheit, Validität, Impact, Zuverlässigkeit und Herkunft – und zeigen, dass die Autonomie von AutoResearch domänenbedingt ist, indem sie in strukturierten, ausführbaren und schnell verifizierbaren Umgebungen glaubwürdiger ist, aber in verkörperten, verzögerten, heterogenen, ethischen oder institutionell rechenschaftspflichtigen Kontexten eingeschränkt ist.

English

Scientific research is being reshaped by AI systems that move beyond isolated assistance toward longer-horizon workflows spanning literature grounding, hypothesis generation, experimentation, validation, reporting, and revision. This shift marks a transition from task-level AI for science to workflow-level research automation. Yet current systems remain fragmented, differing in autonomy, domain scope, execution environment, validation mechanism, and human oversight, while still struggling with evidence preservation, reproducibility, weak-direction rejection, provenance tracking, cross-domain robustness, and accountable scientific closure. This survey examines these developments through AutoResearch, defined as the developmental spectrum of AI-powered scientific workflow automation. Within it, Vibe Research denotes the human-steered region of prompt-based assistance and human-verified execution, whereas emerging AI-led systems coordinate larger portions of the discovery loop without achieving robust autonomy. We analyze how research systems redistribute control, evidence, execution, validation, and accountability across workflows and organize the field around five workflow conditions: literature and research grounding; hypothesis formation and planning; experimentation and tool use; feedback, validation, and review; and reporting and knowledge communication. We further synthesize AI scientist systems, mixed-initiative co-research frameworks, benchmarks, domain deployments, and open-source infrastructures. Finally, we propose five evaluation dimensions--novelty, validity, impact, reliability, and provenance--and show that AutoResearch autonomy is domain-conditioned, being more credible in structured, executable, and rapidly verifiable settings but limited in embodied, delayed, heterogeneous, ethical, or institutionally accountable contexts.