AutoResearchClaw: Selbstverstärkende autonome Forschung mit Mensch-KI-Zusammenarbeit

Zusammenfassung

Die Automatisierung wissenschaftlicher Entdeckungen erfordert mehr als nur die Generierung von Fachartikeln aus Ideen. Echte Forschung ist iterativ: Hypothesen werden aus mehreren Perspektiven hinterfragt, Experimente scheitern und informieren den nächsten Versuch, und Erkenntnisse sammeln sich über Zyklen hinweg an. Bestehende autonome Forschungssysteme modellieren diesen Prozess oft als lineare Pipeline: Sie stützen sich auf das Denken eines einzelnen Agenten, halten an, wenn die Ausführung fehlschlägt, und übertragen keine Erfahrungen über Durchläufe hinweg. Wir stellen AutoResearchClaw vor, eine multi-agentenbasierte autonome Forschungspipeline, die auf fünf Mechanismen aufbaut: strukturierte Multi-Agenten-Debatte zur Hypothesengenerierung und Ergebnisanalyse, einen selbstheilenden Ausführer mit einer Pivot/Refine-Entscheidungsschleife, die Fehler in Informationen umwandelt, überprüfbare Ergebnisberichterstattung, die erfundene Zahlen und halluzinierte Zitate verhindert, Human-in-the-loop-Kollaboration mit sieben Interventionsmodi, die von vollständiger Autonomie bis zur schrittweisen Überwachung reichen, und durchlaufübergreifende Evolution, die frühere Fehler in zukünftige Sicherheitsvorkehrungen umwandelt. Auf ARC-Bench, einem Experiment-Stage-Benchmark mit 25 Themen, übertrifft AutoResearchClaw AI Scientist v2 um 54,7 %. Eine Human-in-the-loop-Ablation über sieben Interventionsmodi zeigt, dass präzise, gezielte Zusammenarbeit an entscheidenden Punkten mit hoher Hebelwirkung sowohl die vollständige Autonomie als auch die erschöpfende schrittweise Überwachung durchgängig übertrifft. Wir positionieren AutoResearchClaw als Forschungsverstärker, der das menschliche wissenschaftliche Urteilsvermögen ergänzt und nicht ersetzt. Der Code ist verfügbar unter https://github.com/aiming-lab/AutoResearchClaw.

English

Automating scientific discovery requires more than generating papers from ideas. Real research is iterative: hypotheses are challenged from multiple perspectives, experiments fail and inform the next attempt, and lessons accumulate across cycles. Existing autonomous research systems often model this process as a linear pipeline: they rely on single-agent reasoning, stop when execution fails, and do not carry experience across runs. We present AutoResearchClaw, a multi-agent autonomous research pipeline built on five mechanisms: structured multi-agent debate for hypothesis generation and result analysis, a self-healing executor with a Pivot/Refine decision loop that transforms failures into information, verifiable result reporting that prevents fabricated numbers and hallucinated citations, human-in-the-loop collaboration with seven intervention modes spanning full autonomy to step-by-step oversight, and cross-run evolution that converts past mistakes into future safeguards. On ARC-Bench, a 25-topic experiment-stage benchmark, AutoResearchClaw outperforms AI Scientist v2 by 54.7%. A human-in-the-loop ablation across seven intervention modes reveals that precise, targeted collaboration at high-leverage decision points consistently outperforms both full autonomy and exhaustive step-by-step oversight. We position AutoResearchClaw as a research amplifier that augments rather than replaces human scientific judgment. Code is available at https://github.com/aiming-lab/AutoResearchClaw.