AutoResearchClaw: Zelfversterkend Autonoom Onderzoek met Mens-AI Samenwerking

Samenvatting

Het automatiseren van wetenschappelijke ontdekkingen vereist meer dan alleen het genereren van papers uit ideeën. Echt onderzoek is iteratief: hypothesen worden vanuit meerdere perspectieven uitgedaagd, experimenten mislukken en voeden de volgende poging, en lessen stapelen zich op over cycli heen. Bestaande autonome onderzoekssystemen modelleren dit proces vaak als een lineaire pijplijn: zij vertrouwen op redenering door één enkele agent, stoppen wanneer uitvoering faalt, en dragen geen ervaring over van de ene run naar de volgende. Wij presenteren AutoResearchClaw, een multi-agent autonome onderzoekspijplijn gebaseerd op vijf mechanismen: gestructureerd multi-agent debat voor hypothesegeneratie en resultatenanalyse, een zelfherstellende uitvoerder met een Pivot/Refine-beslislus die mislukkingen omzet in informatie, verifieerbare resultatenrapportage die verzonnen getallen en hallucinatieve citaten voorkomt, mens-in-de-lus samenwerking met zeven interventiemodi variërend van volledige autonomie tot stapsgewijs toezicht, en cross-run evolutie die eerdere fouten omzet in toekomstige waarborgen. Op ARC-Bench, een experimentele benchmark met 25 onderwerpen, presteert AutoResearchClaw 54,7% beter dan AI Scientist v2. Een mens-in-de-lus ablatiestudie over zeven interventiemodi toont aan dat precieze, gerichte samenwerking op beslissingspunten met hoge hefboomwerking consistent beter presteert dan zowel volledige autonomie als uitputtend stapsgewijs toezicht. Wij positioneren AutoResearchClaw als een onderzoeksversterker die het wetenschappelijke oordeel van de mens aanvult in plaats van vervangt. Code is beschikbaar op https://github.com/aiming-lab/AutoResearchClaw.

English

Automating scientific discovery requires more than generating papers from ideas. Real research is iterative: hypotheses are challenged from multiple perspectives, experiments fail and inform the next attempt, and lessons accumulate across cycles. Existing autonomous research systems often model this process as a linear pipeline: they rely on single-agent reasoning, stop when execution fails, and do not carry experience across runs. We present AutoResearchClaw, a multi-agent autonomous research pipeline built on five mechanisms: structured multi-agent debate for hypothesis generation and result analysis, a self-healing executor with a Pivot/Refine decision loop that transforms failures into information, verifiable result reporting that prevents fabricated numbers and hallucinated citations, human-in-the-loop collaboration with seven intervention modes spanning full autonomy to step-by-step oversight, and cross-run evolution that converts past mistakes into future safeguards. On ARC-Bench, a 25-topic experiment-stage benchmark, AutoResearchClaw outperforms AI Scientist v2 by 54.7%. A human-in-the-loop ablation across seven intervention modes reveals that precise, targeted collaboration at high-leverage decision points consistently outperforms both full autonomy and exhaustive step-by-step oversight. We position AutoResearchClaw as a research amplifier that augments rather than replaces human scientific judgment. Code is available at https://github.com/aiming-lab/AutoResearchClaw.