AutoResearchClaw: 인간-AI 협력을 통한 자기 강화형 자율 연구
AutoResearchClaw: Self-Reinforcing Autonomous Research with Human-AI Collaboration
May 19, 2026
저자: Jiaqi Liu, Shi Qiu, Mairui Li, Bingzhou Li, Haonian Ji, Siwei Han, Xinyu Ye, Peng Xia, Zihan Dong, Congyu Zhang, Letian Zhang, Guiming Chen, Haoqin Tu, Xinyu Yang, Lu Feng, Xujiang Zhao, Haifeng Chen, Jiawei Zhou, Xiao Wang, Weitong Zhang, Hongtu Zhu, Yun Li, Jieru Mei, Hongliang Fei, Jiaheng Zhang, Linjie Li, Linjun Zhang, Yuyin Zhou, Sheng Wang, Caiming Xiong, James Zou, Zeyu Zheng, Cihang Xie, Mingyu Ding, Huaxiu Yao
cs.AI
초록
과학적 발견의 자동화는 단순히 아이디어로부터 논문을 생성하는 것을 넘어선다. 실제 연구는 반복적이다. 가설은 여러 관점에서 도전받고, 실험은 실패하여 다음 시도에 정보를 제공하며, 교훈은 주기를 거쳐 축적된다. 기존의 자율 연구 시스템은 종종 이 과정을 선형 파이프라인으로 모델링한다. 즉, 단일 에이전트 추론에 의존하고, 실행 실패 시 중단하며, 실행 간에 경험을 전달하지 않는다. 우리는 AutoResearchClaw를 제시한다. 이는 다섯 가지 메커니즘으로 구축된 다중 에이전트 자율 연구 파이프라인이다: 가설 생성 및 결과 분석을 위한 구조화된 다중 에이전트 토론, 실패를 정보로 전환하는 Pivot/Refine 결정 루프를 갖춘 자가 치유 실행기, 조작된 수치와 환각 인용을 방지하는 검증 가능한 결과 보고, 완전 자율에서 단계별 감독까지 포함하는 일곱 가지 개입 모드를 통한 인간-루프 협업, 그리고 과거 실수를 미래 보호 장치로 전환하는 실행 간 진화.
25개 주제의 실험 단계 벤치마크인 ARC-Bench에서 AutoResearchClaw는 AI Scientist v2보다 54.7% 더 우수한 성능을 보인다. 일곱 가지 개입 모드에 걸친 인간-루프 제거 연구는 높은 영향력(high-leverage) 의사 결정 지점에서의 정확하고 표적화된 협업이 완전 자율성과 철저한 단계별 감독보다 일관되게 우수함을 보여준다. 우리는 AutoResearchClaw를 인간의 과학적 판단을 대체하기보다는 증강하는 연구 증폭기로 자리매김한다. 코드는 https://github.com/aiming-lab/AutoResearchClaw에서 확인할 수 있다.
English
Automating scientific discovery requires more than generating papers from ideas. Real research is iterative: hypotheses are challenged from multiple perspectives, experiments fail and inform the next attempt, and lessons accumulate across cycles. Existing autonomous research systems often model this process as a linear pipeline: they rely on single-agent reasoning, stop when execution fails, and do not carry experience across runs. We present AutoResearchClaw, a multi-agent autonomous research pipeline built on five mechanisms: structured multi-agent debate for hypothesis generation and result analysis, a self-healing executor with a Pivot/Refine decision loop that transforms failures into information, verifiable result reporting that prevents fabricated numbers and hallucinated citations, human-in-the-loop collaboration with seven intervention modes spanning full autonomy to step-by-step oversight, and cross-run evolution that converts past mistakes into future safeguards. On ARC-Bench, a 25-topic experiment-stage benchmark, AutoResearchClaw outperforms AI Scientist v2 by 54.7%. A human-in-the-loop ablation across seven intervention modes reveals that precise, targeted collaboration at high-leverage decision points consistently outperforms both full autonomy and exhaustive step-by-step oversight. We position AutoResearchClaw as a research amplifier that augments rather than replaces human scientific judgment. Code is available at https://github.com/aiming-lab/AutoResearchClaw.