機械学習研究における自律的長期エンジニアリングに向けて
Toward Autonomous Long-Horizon Engineering for ML Research
April 14, 2026
著者: Guoxin Chen, Jie Chen, Lei Chen, Jiale Zhao, Fanzhe Meng, Wayne Xin Zhao, Ruihua Song, Cheng Chen, Ji-Rong Wen, Kai Jia
cs.AI
要旨
自律的なAI研究は急速に進歩しているが、長期的なML研究エンジニアリングは依然として困難である。エージェントは、タスク理解、環境設定、実装、実験、デバッグといった工程を数時間から数日にわたって一貫して持続させる必要がある。我々はAiScientistを提案する。これは、強力な長期的性能には構造化されたオーケストレーションと永続的な状態の連続性の両方が必要であるというシンプルな原理に基づいて構築された、ML研究のための自律的長期的エンジニアリングシステムである。この目的のために、AiScientistは階層的オーケストレーションと権限スコープ付きの「File-as-Bus」ワークスペースを組み合わせている。トップレベルのオーケストレーターは簡潔な要約とワークスペースマップを通じて段階的な制御を維持し、専門化されたエージェントは会話的な引き継ぎに主に依存するのではなく、分析、計画、コード、実験的証拠といった永続的な成果物に対して繰り返し再接地することで、「厚い状態に対する薄い制御」を実現する。2つの相補的なベンチマークにおいて、AiScientistはPaperBenchスコアを最適なマッチングベースラインから平均10.54ポイント向上させ、MLE-Bench Liteでは81.82%のAny Medal率を達成した。アブレーション研究ではさらに、File-as-Busプロトコルが性能の主要な要因であり、これを除去するとPaperBenchが6.41ポイント、MLE-Bench Liteが31.82ポイント低下することが示された。これらの結果は、長期的なML研究エンジニアリングが、純粋な局所的な推論問題ではなく、永続的なプロジェクト状態を専門的な作業で調整するシステム問題であることを示唆している。
English
Autonomous AI research has advanced rapidly, but long-horizon ML research engineering remains difficult: agents must sustain coherent progress across task comprehension, environment setup, implementation, experimentation, and debugging over hours or days. We introduce AiScientist, a system for autonomous long-horizon engineering for ML research built on a simple principle: strong long-horizon performance requires both structured orchestration and durable state continuity. To this end, AiScientist combines hierarchical orchestration with a permission-scoped File-as-Bus workspace: a top-level Orchestrator maintains stage-level control through concise summaries and a workspace map, while specialized agents repeatedly re-ground on durable artifacts such as analyses, plans, code, and experimental evidence rather than relying primarily on conversational handoffs, yielding thin control over thick state. Across two complementary benchmarks, AiScientist improves PaperBench score by 10.54 points on average over the best matched baseline and achieves 81.82 Any Medal% on MLE-Bench Lite. Ablation studies further show that File-as-Bus protocol is a key driver of performance, reducing PaperBench by 6.41 points and MLE-Bench Lite by 31.82 points when removed. These results suggest that long-horizon ML research engineering is a systems problem of coordinating specialized work over durable project state, rather than a purely local reasoning problem.