AutoResearchClaw : Recherche autonome auto-renforcée avec collaboration humain-IA

Résumé

Automatiser la découverte scientifique nécessite bien plus que la génération d'articles à partir d'idées. La recherche réelle est itérative : les hypothèses sont remises en question sous de multiples perspectives, les expériences échouent et informent la tentative suivante, et les leçons s'accumulent au fil des cycles. Les systèmes de recherche autonomes existants modélisent souvent ce processus comme un pipeline linéaire : ils reposent sur un raisonnement mono-agent, s'arrêtent en cas d'échec d'exécution et ne capitalisent pas l'expérience entre les exécutions. Nous présentons AutoResearchClaw, un pipeline de recherche autonome multi-agent fondé sur cinq mécanismes : un débat structuré multi-agent pour la génération d'hypothèses et l'analyse des résultats, un exécuteur auto-réparateur avec une boucle de décision Pivot/Refine qui transforme les échecs en informations, un rapport de résultats vérifiable qui empêche les chiffres fabriqués et les citations hallucinées, une collaboration humain-dans-la-boucle avec sept modes d'intervention allant de l'autonomie totale à une supervision pas à pas, et une évolution inter-exécutions qui convertit les erreurs passées en garde-fous futurs. Sur ARC-Bench, un banc d'essai de 25 sujets au stade expérimental, AutoResearchClaw surpasse AI Scientist v2 de 54,7 %. Une ablation humain-dans-la-boucle à travers sept modes d'intervention révèle qu'une collaboration précise et ciblée aux points de décision à fort impact surpasse systématiquement à la fois l'autonomie complète et la supervision exhaustive pas à pas. Nous positionnons AutoResearchClaw comme un amplificateur de recherche qui augmente le jugement scientifique humain sans le remplacer. Le code est disponible à l'adresse https://github.com/aiming-lab/AutoResearchClaw.

English

Automating scientific discovery requires more than generating papers from ideas. Real research is iterative: hypotheses are challenged from multiple perspectives, experiments fail and inform the next attempt, and lessons accumulate across cycles. Existing autonomous research systems often model this process as a linear pipeline: they rely on single-agent reasoning, stop when execution fails, and do not carry experience across runs. We present AutoResearchClaw, a multi-agent autonomous research pipeline built on five mechanisms: structured multi-agent debate for hypothesis generation and result analysis, a self-healing executor with a Pivot/Refine decision loop that transforms failures into information, verifiable result reporting that prevents fabricated numbers and hallucinated citations, human-in-the-loop collaboration with seven intervention modes spanning full autonomy to step-by-step oversight, and cross-run evolution that converts past mistakes into future safeguards. On ARC-Bench, a 25-topic experiment-stage benchmark, AutoResearchClaw outperforms AI Scientist v2 by 54.7%. A human-in-the-loop ablation across seven intervention modes reveals that precise, targeted collaboration at high-leverage decision points consistently outperforms both full autonomy and exhaustive step-by-step oversight. We position AutoResearchClaw as a research amplifier that augments rather than replaces human scientific judgment. Code is available at https://github.com/aiming-lab/AutoResearchClaw.