AutoResearchClaw: Pesquisa Autônoma Auto-reforçadora com Colaboração Humano-IA

Resumo

Automatizar a descoberta científica exige mais do que gerar artigos a partir de ideias. A pesquisa real é iterativa: hipóteses são desafiadas sob múltiplas perspectivas, experimentos falham e informam a tentativa seguinte, e lições se acumulam ao longo dos ciclos. Os sistemas autônomos de pesquisa existentes frequentemente modelam esse processo como um pipeline linear: dependem de raciocínio de agente único, param quando a execução falha e não carregam experiência entre execuções. Apresentamos o AutoResearchClaw, um pipeline de pesquisa autônomo multiagente construído sobre cinco mecanismos: debate multiagente estruturado para geração de hipóteses e análise de resultados, um executor autocorretivo com um ciclo de decisão Pivot/Refine que transforma falhas em informação, relato de resultados verificáveis que impede números fabricados e citações alucinadas, colaboração com humano no loop com sete modos de intervenção que abrangem desde autonomia total até supervisão passo a passo, e evolução entre execuções que converte erros passados em salvaguardas futuras. No ARC-Bench, um benchmark de estágio experimental com 25 tópicos, o AutoResearchClaw supera o AI Scientist v2 em 54,7%. Uma ablação com humano no loop em sete modos de intervenção revela que a colaboração precisa e direcionada em pontos de decisão de alto impacto supera consistentemente tanto a autonomia total quanto a supervisão passo a passo exaustiva. Posicionamos o AutoResearchClaw como um amplificador de pesquisa que aumenta, em vez de substituir, o julgamento científico humano. O código está disponível em https://github.com/aiming-lab/AutoResearchClaw.

English

Automating scientific discovery requires more than generating papers from ideas. Real research is iterative: hypotheses are challenged from multiple perspectives, experiments fail and inform the next attempt, and lessons accumulate across cycles. Existing autonomous research systems often model this process as a linear pipeline: they rely on single-agent reasoning, stop when execution fails, and do not carry experience across runs. We present AutoResearchClaw, a multi-agent autonomous research pipeline built on five mechanisms: structured multi-agent debate for hypothesis generation and result analysis, a self-healing executor with a Pivot/Refine decision loop that transforms failures into information, verifiable result reporting that prevents fabricated numbers and hallucinated citations, human-in-the-loop collaboration with seven intervention modes spanning full autonomy to step-by-step oversight, and cross-run evolution that converts past mistakes into future safeguards. On ARC-Bench, a 25-topic experiment-stage benchmark, AutoResearchClaw outperforms AI Scientist v2 by 54.7%. A human-in-the-loop ablation across seven intervention modes reveals that precise, targeted collaboration at high-leverage decision points consistently outperforms both full autonomy and exhaustive step-by-step oversight. We position AutoResearchClaw as a research amplifier that augments rather than replaces human scientific judgment. Code is available at https://github.com/aiming-lab/AutoResearchClaw.