AutoResearchClaw: самоусиливающееся автономное исследование с участием человека и ИИ
AutoResearchClaw: Self-Reinforcing Autonomous Research with Human-AI Collaboration
May 19, 2026
Авторы: Jiaqi Liu, Shi Qiu, Mairui Li, Bingzhou Li, Haonian Ji, Siwei Han, Xinyu Ye, Peng Xia, Zihan Dong, Congyu Zhang, Letian Zhang, Guiming Chen, Haoqin Tu, Xinyu Yang, Lu Feng, Xujiang Zhao, Haifeng Chen, Jiawei Zhou, Xiao Wang, Weitong Zhang, Hongtu Zhu, Yun Li, Jieru Mei, Hongliang Fei, Jiaheng Zhang, Linjie Li, Linjun Zhang, Yuyin Zhou, Sheng Wang, Caiming Xiong, James Zou, Zeyu Zheng, Cihang Xie, Mingyu Ding, Huaxiu Yao
cs.AI
Аннотация
Автоматизация научных открытий требует большего, чем просто генерация статей на основе идей. Реальные исследования итеративны: гипотезы проверяются с разных сторон, эксперименты дают сбои и становятся основой для следующей попытки, а накопленные уроки переносятся из цикла в цикл. Существующие автономные исследовательские системы часто моделируют этот процесс как линейный конвейер: они полагаются на рассуждения единственного агента, останавливаются при сбое выполнения и не переносят опыт между запусками. Мы представляем AutoResearchClaw — мультиагентный автономный исследовательский пайплайн, построенный на пяти механизмах: структурированные мультиагентные дебаты для генерации гипотез и анализа результатов, самовосстанавливающийся исполнитель с циклом принятия решений Pivot/Refine, превращающим неудачи в информацию, верифицируемый отчет о результатах, предотвращающий поддельные числа и вымышленные цитирования, коллаборация с участием человека с семью режимами вмешательства — от полной автономии до пошагового контроля, а также межзапусковая эволюция, преобразующая прошлые ошибки в будущие гарантии. На ARC-Bench, бенчмарке экспериментальной стадии из 25 тем, AutoResearchClaw превосходит AI Scientist v2 на 54,7%. Абляция с участием человека в семи режимах вмешательства показывает, что точное целенаправленное сотрудничество в точках принятия решений с высоким рычагом неизменно превосходит как полную автономию, так и исчерпывающий пошаговый контроль. Мы позиционируем AutoResearchClaw как усилитель исследований, который дополняет, а не заменяет научное суждение человека. Код доступен по адресу https://github.com/aiming-lab/AutoResearchClaw.
English
Automating scientific discovery requires more than generating papers from ideas. Real research is iterative: hypotheses are challenged from multiple perspectives, experiments fail and inform the next attempt, and lessons accumulate across cycles. Existing autonomous research systems often model this process as a linear pipeline: they rely on single-agent reasoning, stop when execution fails, and do not carry experience across runs. We present AutoResearchClaw, a multi-agent autonomous research pipeline built on five mechanisms: structured multi-agent debate for hypothesis generation and result analysis, a self-healing executor with a Pivot/Refine decision loop that transforms failures into information, verifiable result reporting that prevents fabricated numbers and hallucinated citations, human-in-the-loop collaboration with seven intervention modes spanning full autonomy to step-by-step oversight, and cross-run evolution that converts past mistakes into future safeguards. On ARC-Bench, a 25-topic experiment-stage benchmark, AutoResearchClaw outperforms AI Scientist v2 by 54.7%. A human-in-the-loop ablation across seven intervention modes reveals that precise, targeted collaboration at high-leverage decision points consistently outperforms both full autonomy and exhaustive step-by-step oversight. We position AutoResearchClaw as a research amplifier that augments rather than replaces human scientific judgment. Code is available at https://github.com/aiming-lab/AutoResearchClaw.