AutoResearchClaw: Investigación Autónoma Autoreforzante con Colaboración Humano-IA
AutoResearchClaw: Self-Reinforcing Autonomous Research with Human-AI Collaboration
May 19, 2026
Autores: Jiaqi Liu, Shi Qiu, Mairui Li, Bingzhou Li, Haonian Ji, Siwei Han, Xinyu Ye, Peng Xia, Zihan Dong, Congyu Zhang, Letian Zhang, Guiming Chen, Haoqin Tu, Xinyu Yang, Lu Feng, Xujiang Zhao, Haifeng Chen, Jiawei Zhou, Xiao Wang, Weitong Zhang, Hongtu Zhu, Yun Li, Jieru Mei, Hongliang Fei, Jiaheng Zhang, Linjie Li, Linjun Zhang, Yuyin Zhou, Sheng Wang, Caiming Xiong, James Zou, Zeyu Zheng, Cihang Xie, Mingyu Ding, Huaxiu Yao
cs.AI
Resumen
Automatizar el descubrimiento científico requiere más que generar artículos a partir de ideas. La investigación real es iterativa: las hipótesis se desafían desde múltiples perspectivas, los experimentos fallan e informan el siguiente intento, y las lecciones se acumulan a lo largo de los ciclos. Los sistemas autónomos de investigación existentes a menudo modelan este proceso como un flujo lineal: dependen del razonamiento de un solo agente, se detienen cuando la ejecución falla y no trasladan la experiencia entre ejecuciones. Presentamos AutoResearchClaw, un flujo de investigación autónomo multiagente basado en cinco mecanismos: debate estructurado multiagente para la generación de hipótesis y el análisis de resultados, un ejecutor autocorrectivo con un bucle de decisión Pivot/Refine que transforma los fallos en información, reporte de resultados verificable que evita números inventados y citas alucinadas, colaboración humano en el ciclo con siete modos de intervención que abarcan desde la autonomía total hasta la supervisión paso a paso, y evolución entre ejecuciones que convierte errores pasados en salvaguardas futuras. En ARC-Bench, un banco de pruebas de 25 temas en fase experimental, AutoResearchClaw supera a AI Scientist v2 en un 54,7%. Un estudio de ablación con humano en el ciclo en siete modos de intervención revela que la colaboración precisa y dirigida en puntos de decisión de alto apalancamiento supera consistentemente tanto a la autonomía total como a la supervisión exhaustiva paso a paso. Posicionamos AutoResearchClaw como un amplificador de la investigación que aumenta, en lugar de reemplazar, el juicio científico humano. El código está disponible en https://github.com/aiming-lab/AutoResearchClaw.
English
Automating scientific discovery requires more than generating papers from ideas. Real research is iterative: hypotheses are challenged from multiple perspectives, experiments fail and inform the next attempt, and lessons accumulate across cycles. Existing autonomous research systems often model this process as a linear pipeline: they rely on single-agent reasoning, stop when execution fails, and do not carry experience across runs. We present AutoResearchClaw, a multi-agent autonomous research pipeline built on five mechanisms: structured multi-agent debate for hypothesis generation and result analysis, a self-healing executor with a Pivot/Refine decision loop that transforms failures into information, verifiable result reporting that prevents fabricated numbers and hallucinated citations, human-in-the-loop collaboration with seven intervention modes spanning full autonomy to step-by-step oversight, and cross-run evolution that converts past mistakes into future safeguards. On ARC-Bench, a 25-topic experiment-stage benchmark, AutoResearchClaw outperforms AI Scientist v2 by 54.7%. A human-in-the-loop ablation across seven intervention modes reveals that precise, targeted collaboration at high-leverage decision points consistently outperforms both full autonomy and exhaustive step-by-step oversight. We position AutoResearchClaw as a research amplifier that augments rather than replaces human scientific judgment. Code is available at https://github.com/aiming-lab/AutoResearchClaw.