머신러닝 연구를 위한 자율 장기 엔지니어링 방향
Toward Autonomous Long-Horizon Engineering for ML Research
April 14, 2026
저자: Guoxin Chen, Jie Chen, Lei Chen, Jiale Zhao, Fanzhe Meng, Wayne Xin Zhao, Ruihua Song, Cheng Chen, Ji-Rong Wen, Kai Jia
cs.AI
초록
자율 AI 연구는 빠르게 발전했지만, 장기적 ML 연구 엔지니어링은 여전히 어려운 과제로 남아 있습니다: 에이전트는 작업 이해, 환경 설정, 구현, 실험, 디버깅에 걸쳐 수시간 또는 수일 동안 일관된 진행을 유지해야 합니다. 우리는 AiScientist를 소개합니다. 이는 단순한 원칙, 즉 강력한 장기적 성능을 위해서는 구조화된 오케스트레이션과 지속적인 상태 연속성이 모두 필요하다는 원칙에 기반한 ML 연구를 위한 자율 장기적 엔지니어링 시스템입니다. 이를 위해 AiScientist는 계층적 오케스트레이션과 권한 범위가 지정된 File-as-Bus 작업 공간을 결합합니다: 최상위 오케스트레이터는 간결한 요약과 작업 공간 맵을 통해 단계별 제어를 유지하는 반면, 전문 에이전트들은 주로 대화형 인수인계에 의존하기보다는 분석, 계획, 코드, 실험적 증거와 같은 지속적인 산출물을 반복적으로 재확인하여, 두꺼운 상태(Thick State) 위에 얇은 제어(Thin Control)를 구현합니다. 두 가지 상호 보완적인 벤치마크에서 AiScientist는 PaperBench 점수를 가장 성능이 좋은 기준 모델 대비 평균 10.54점 향상시켰고 MLE-Bench Lite에서 81.82%의 Any Medal율을 달성했습니다. 추가 분석 연구는 File-as-Bus 프로토콜이 성능의 핵심 동인임을 보여주며, 이를 제거할 경우 PaperBench 점수가 6.41점, MLE-Bench Lite 점수가 31.82점 하락했습니다. 이러한 결과는 장기적 ML 연구 엔지니어링이 순수한 지역적 추론 문제가 아니라 지속적인 프로젝트 상태 위에서 전문 작업을 조정하는 시스템 문제임을 시사합니다.
English
Autonomous AI research has advanced rapidly, but long-horizon ML research engineering remains difficult: agents must sustain coherent progress across task comprehension, environment setup, implementation, experimentation, and debugging over hours or days. We introduce AiScientist, a system for autonomous long-horizon engineering for ML research built on a simple principle: strong long-horizon performance requires both structured orchestration and durable state continuity. To this end, AiScientist combines hierarchical orchestration with a permission-scoped File-as-Bus workspace: a top-level Orchestrator maintains stage-level control through concise summaries and a workspace map, while specialized agents repeatedly re-ground on durable artifacts such as analyses, plans, code, and experimental evidence rather than relying primarily on conversational handoffs, yielding thin control over thick state. Across two complementary benchmarks, AiScientist improves PaperBench score by 10.54 points on average over the best matched baseline and achieves 81.82 Any Medal% on MLE-Bench Lite. Ablation studies further show that File-as-Bus protocol is a key driver of performance, reducing PaperBench by 6.41 points and MLE-Bench Lite by 31.82 points when removed. These results suggest that long-horizon ML research engineering is a systems problem of coordinating specialized work over durable project state, rather than a purely local reasoning problem.