AutoResearchClaw: Pesquisa Autônoma Auto-reforçadora com Colaboração Humano-IA
AutoResearchClaw: Self-Reinforcing Autonomous Research with Human-AI Collaboration
May 19, 2026
Autores: Jiaqi Liu, Shi Qiu, Mairui Li, Bingzhou Li, Haonian Ji, Siwei Han, Xinyu Ye, Peng Xia, Zihan Dong, Congyu Zhang, Letian Zhang, Guiming Chen, Haoqin Tu, Xinyu Yang, Lu Feng, Xujiang Zhao, Haifeng Chen, Jiawei Zhou, Xiao Wang, Weitong Zhang, Hongtu Zhu, Yun Li, Jieru Mei, Hongliang Fei, Jiaheng Zhang, Linjie Li, Linjun Zhang, Yuyin Zhou, Sheng Wang, Caiming Xiong, James Zou, Zeyu Zheng, Cihang Xie, Mingyu Ding, Huaxiu Yao
cs.AI
Resumo
Automatizar a descoberta científica exige mais do que gerar artigos a partir de ideias. A pesquisa real é iterativa: hipóteses são desafiadas sob múltiplas perspectivas, experimentos falham e informam a tentativa seguinte, e lições se acumulam ao longo dos ciclos. Os sistemas autônomos de pesquisa existentes frequentemente modelam esse processo como um pipeline linear: dependem de raciocínio de agente único, param quando a execução falha e não carregam experiência entre execuções. Apresentamos o AutoResearchClaw, um pipeline de pesquisa autônomo multiagente construído sobre cinco mecanismos: debate multiagente estruturado para geração de hipóteses e análise de resultados, um executor autocorretivo com um ciclo de decisão Pivot/Refine que transforma falhas em informação, relato de resultados verificáveis que impede números fabricados e citações alucinadas, colaboração com humano no loop com sete modos de intervenção que abrangem desde autonomia total até supervisão passo a passo, e evolução entre execuções que converte erros passados em salvaguardas futuras. No ARC-Bench, um benchmark de estágio experimental com 25 tópicos, o AutoResearchClaw supera o AI Scientist v2 em 54,7%. Uma ablação com humano no loop em sete modos de intervenção revela que a colaboração precisa e direcionada em pontos de decisão de alto impacto supera consistentemente tanto a autonomia total quanto a supervisão passo a passo exaustiva. Posicionamos o AutoResearchClaw como um amplificador de pesquisa que aumenta, em vez de substituir, o julgamento científico humano. O código está disponível em https://github.com/aiming-lab/AutoResearchClaw.
English
Automating scientific discovery requires more than generating papers from ideas. Real research is iterative: hypotheses are challenged from multiple perspectives, experiments fail and inform the next attempt, and lessons accumulate across cycles. Existing autonomous research systems often model this process as a linear pipeline: they rely on single-agent reasoning, stop when execution fails, and do not carry experience across runs. We present AutoResearchClaw, a multi-agent autonomous research pipeline built on five mechanisms: structured multi-agent debate for hypothesis generation and result analysis, a self-healing executor with a Pivot/Refine decision loop that transforms failures into information, verifiable result reporting that prevents fabricated numbers and hallucinated citations, human-in-the-loop collaboration with seven intervention modes spanning full autonomy to step-by-step oversight, and cross-run evolution that converts past mistakes into future safeguards. On ARC-Bench, a 25-topic experiment-stage benchmark, AutoResearchClaw outperforms AI Scientist v2 by 54.7%. A human-in-the-loop ablation across seven intervention modes reveals that precise, targeted collaboration at high-leverage decision points consistently outperforms both full autonomy and exhaustive step-by-step oversight. We position AutoResearchClaw as a research amplifier that augments rather than replaces human scientific judgment. Code is available at https://github.com/aiming-lab/AutoResearchClaw.