KI für Auto-Research: Roadmap & Benutzerhandbuch

Zusammenfassung

KI-gestützte Forschung überschreitet eine Schwelle: Vollautomatische Systeme können nun Forschungspapiere für nur 15 US-Dollar generieren, während Agenten mit langem Zeithorizont Experimente durchführen, Manuskripte entwerfen und Kritik mit minimalem menschlichen Input simulieren. Doch diese Produktivitätsgrenze offenbart ein tieferliegendes Integritätsproblem: Unter wissenschaftlichem Druck fabrizieren selbst hochmoderne LLMs noch Ergebnisse, übersehen versteckte Fehler und können die Neuheit von Arbeiten nicht zuverlässig bewerten. Wir betrachten Entwicklungen bis April 2026 und präsentieren eine durchgängige Analyse von KI über den gesamten Forschungskreislauf hinweg, gegliedert in vier epistemologische Phasen: Kreation (Ideenfindung, Literaturrecherche, Codierung und Experimente, Tabellen und Abbildungen), Schreiben (Papierverfassung), Validierung (Peer Review, Erwiderung und Überarbeitung) und Verbreitung (Poster, Folien, Videos, soziale Medien, Projektseiten und interaktive Agenten). Wir identifizieren eine scharfe, phasenabhängige Grenze zwischen zuverlässiger Unterstützung und unzuverlässiger Autonomie: KI glänzt bei strukturierten, abrufgestützten und werkzeugvermittelten Aufgaben, bleibt jedoch bei wirklich neuartigen Ideen, forschungsrelevanten Experimenten und wissenschaftlicher Urteilsfähigkeit fragil. Generierte Ideen verschlechtern sich oft nach der Implementierung, Forschungscode bleibt weit hinter Benchmark-Aufgaben zum Mustervergleich zurück, und durchgängig autonome Systeme haben noch nicht durchgängig die Akzeptanzstandards bedeutender Tagungen erreicht. Wir zeigen zudem, dass größere Automatisierung Fehlermodi eher verschleiern als beseitigen kann, wodurch die von Menschen gesteuerte Zusammenarbeit zum glaubwürdigsten Einsatzparadigma wird. Abschließend liefern wir eine strukturierte Taxonomie, eine Benchmark-Suite und ein Werkzeugverzeichnis, phasenübergreifende Entwurfsprinzipien sowie ein praxisorientiertes Handbuch; die zugehörigen Ressourcen werden auf unserer Projektseite gepflegt.

English

AI-assisted research is crossing a threshold: fully automated systems can now generate research papers for as little as $15, while long-horizon agents can execute experiments, draft manuscripts, and simulate critique with minimal human input. Yet this productivity frontier exposes a deeper integrity problem: under scientific pressure, even frontier LLMs still fabricate results, miss hidden errors, and fail to judge novelty reliably. Studying developments through April 2026, we present an end-to-end analysis of AI across the complete research lifecycle, organized into four epistemological phases: Creation (idea generation, literature review, coding & experiments, tables & figures), Writing (paper writing), Validation (peer review, rebuttal & revision), and Dissemination (posters, slides, videos, social media, project pages, and interactive agents). We identify a sharp, stage-dependent boundary between reliable assistance and unreliable autonomy: AI excels at structured, retrieval-grounded, and tool-mediated tasks, but remains fragile for genuinely novel ideas, research-level experiments, and scientific judgment. Generated ideas often degrade after implementation, research code lags far behind pattern-matching benchmarks, and end-to-end autonomous systems have not yet consistently reached major-venue acceptance standards. We further show that greater automation can obscure rather than eliminate failure modes, making human-governed collaboration the most credible deployment paradigm. Finally, we provide a structured taxonomy, benchmark suite, and tool inventory, cross-stage design principles, and a practitioner-oriented playbook, with resources maintained at our project page.