ScientistOne: Auf dem Weg zu autonomer Forschung auf menschlichem Niveau mittels Beweiskette

Zusammenfassung

Autonome Forschungsagenten erstellen wettbewerbsfähige Lösungen und professionell wirkende Manuskripte, doch ihre Ergebnisse weisen Überprüfbarkeitsfehler auf, die durch eine oberflächliche Bewertung nicht erkennbar sind: erfundene Zitate, nicht reproduzierbare Ergebnisse sowie Methodenbeschreibungen, die von der Implementierung abweichen. Wir begegnen diesem Problem mit drei Beiträgen. Erstens: Chain-of-Evidence (CoE), ein Rahmenwerk zur Überprüfbarkeit, das verlangt, dass jede Behauptung auf ihre Beweisquelle zurückführbar ist. Zweitens: ScientistOne, ein durchgängig autonomes Forschungssystem, das Evidenzketten konstruktionsbedingt während der Literaturrecherche, der Lösungsfindung und des Verfassens von Arbeiten aufrechterhält. Drittens: CoE Audit, eine nachträgliche Prüfung, deren vier Integritätschecks – Ergebnisverifikation, Spezifikationsverstoß, Referenzverifikation und Methoden-Code-Abgleich – einheitlich für alle Systeme angewendet werden. Über 75 Arbeiten hinweg, die fünf Systeme und fünf Pionier-Forschungsaufgaben abdecken, weist jede Baseline mindestens eine systematische Fehlerart auf: Die Rate halluzinierter Referenzen erreicht 21 %, die Ergebnisverifikation besteht in nur 42 % der Arbeiten, und der Methoden-Code-Abgleich liegt zwischen 20 % und 80 %. ScientistOne erzielt null halluzinierte Referenzen (0/337), eine perfekte Ergebnisverifikation (12/12) und den höchsten Methoden-Code-Abgleich (14/15) und erreicht oder übertrifft dabei die Leistung menschlicher Experten in allen fünf Aufgaben. ScientistOne verallgemeinert zudem auf sechs weitere Aufgaben aus den Bereichen medizinische Bildgebung, feinkörnige Erkennung, 3D-Wahrnehmung und Sprachmodellierung und erzielt den Spitzenwert bei Parameter Golf sowie Goldmedaillen bei MLE-Bench-Aufgaben, bei denen Baselines vollständig versagen.

English

Autonomous research agents produce competitive solutions and professional-looking manuscripts, yet their outputs contain verifiability failures undetectable by surface-level evaluation: fabricated citations, unreproducible scores, and method descriptions that diverge from the implementation. We address this through three contributions. First, Chain-of-Evidence (CoE), a verifiability framework requiring every claim to be traceable to its evidence source. Second, ScientistOne, an end-to-end autonomous research system that maintains evidence chains by construction throughout literature review, solution discovery, and paper writing. Third, CoE Audit, a post-hoc audit whose four integrity checks -- score verification, specification violation, reference verification, and method-code alignment -- apply uniformly to all systems. Across 75 papers spanning five systems and five frontier research tasks, every baseline exhibits at least one systematic failure mode: hallucinated reference rates reach 21%, score verification passes in as few as 42% of papers, and method-code alignment ranges from 20% to 80%. ScientistOne achieves zero hallucinated references (0/337), perfect score verification (12/12), and the highest method-code alignment (14/15), while matching or exceeding human expert performance on all five tasks. ScientistOne further generalizes to six additional tasks spanning medical imaging, fine-grained recognition, 3D perception, and language modeling, achieving state-of-the-art on Parameter Golf and gold medals on MLE-Bench tasks where baselines fail entirely.