AutoResearchClaw: самоусиливающееся автономное исследование с участием человека и ИИ

Аннотация

Автоматизация научных открытий требует большего, чем просто генерация статей на основе идей. Реальные исследования итеративны: гипотезы проверяются с разных сторон, эксперименты дают сбои и становятся основой для следующей попытки, а накопленные уроки переносятся из цикла в цикл. Существующие автономные исследовательские системы часто моделируют этот процесс как линейный конвейер: они полагаются на рассуждения единственного агента, останавливаются при сбое выполнения и не переносят опыт между запусками. Мы представляем AutoResearchClaw — мультиагентный автономный исследовательский пайплайн, построенный на пяти механизмах: структурированные мультиагентные дебаты для генерации гипотез и анализа результатов, самовосстанавливающийся исполнитель с циклом принятия решений Pivot/Refine, превращающим неудачи в информацию, верифицируемый отчет о результатах, предотвращающий поддельные числа и вымышленные цитирования, коллаборация с участием человека с семью режимами вмешательства — от полной автономии до пошагового контроля, а также межзапусковая эволюция, преобразующая прошлые ошибки в будущие гарантии. На ARC-Bench, бенчмарке экспериментальной стадии из 25 тем, AutoResearchClaw превосходит AI Scientist v2 на 54,7%. Абляция с участием человека в семи режимах вмешательства показывает, что точное целенаправленное сотрудничество в точках принятия решений с высоким рычагом неизменно превосходит как полную автономию, так и исчерпывающий пошаговый контроль. Мы позиционируем AutoResearchClaw как усилитель исследований, который дополняет, а не заменяет научное суждение человека. Код доступен по адресу https://github.com/aiming-lab/AutoResearchClaw.

English

Automating scientific discovery requires more than generating papers from ideas. Real research is iterative: hypotheses are challenged from multiple perspectives, experiments fail and inform the next attempt, and lessons accumulate across cycles. Existing autonomous research systems often model this process as a linear pipeline: they rely on single-agent reasoning, stop when execution fails, and do not carry experience across runs. We present AutoResearchClaw, a multi-agent autonomous research pipeline built on five mechanisms: structured multi-agent debate for hypothesis generation and result analysis, a self-healing executor with a Pivot/Refine decision loop that transforms failures into information, verifiable result reporting that prevents fabricated numbers and hallucinated citations, human-in-the-loop collaboration with seven intervention modes spanning full autonomy to step-by-step oversight, and cross-run evolution that converts past mistakes into future safeguards. On ARC-Bench, a 25-topic experiment-stage benchmark, AutoResearchClaw outperforms AI Scientist v2 by 54.7%. A human-in-the-loop ablation across seven intervention modes reveals that precise, targeted collaboration at high-leverage decision points consistently outperforms both full autonomy and exhaustive step-by-step oversight. We position AutoResearchClaw as a research amplifier that augments rather than replaces human scientific judgment. Code is available at https://github.com/aiming-lab/AutoResearchClaw.