超長期的エージェント科学に向けて:機械学習エンジニアリングのための認知的蓄積
Toward Ultra-Long-Horizon Agentic Science: Cognitive Accumulation for Machine Learning Engineering
January 15, 2026
著者: Xinyu Zhu, Yuzhu Cai, Zexi Liu, Bingyang Zheng, Cheng Wang, Rui Ye, Jiaao Chen, Hanrui Wang, Wei-Chen Wang, Yuzhi Zhang, Linfeng Zhang, Weinan E, Di Jin, Siheng Chen
cs.AI
要旨
人工知能のエージェント的科学研究への進展は、現在、超長期的自律性という課題によって頭打ち状態にある。これは数日または数週間にわたる実験サイクルにおいて、戦略的一貫性と反復的修正を維持する能力を指す。大規模言語モデル(LLM)は短期的推論では優れた能力を示すものの、高次元でフィードバックが遅延する現実世界の研究環境では実行詳細に圧倒され、まばらなフィードバックを首尾一貫した長期的指針に統合できていない。本論文では、科学発見の代表的な縮図である超長期的機械学習エンジニアリング(MLE)を習得する自律エージェント「ML-Master 2.0」を提案する。コンテキスト管理を認知的蓄積のプロセスと再定義する我々のアプローチは、コンピュータシステムにヒントを得た多層アーキテクテクチャ「階層的認知キャッシング(HCC)」を導入する。これにより、経験の時間的構造的差異化を可能にする。一時的な実行トレースを動的に安定した知識およびクロスタスカ知恵へ蒸留することで、HCCはエージェントが即時実行と長期的実験戦略を分離することを可能にし、静的なコンテキストウィンドウのスケーリング限界を効果的に克服する。OpenAIのMLE-Benchにおける24時間制限の評価では、ML-Master 2.0は56.44%という最先端のメダル獲得率を達成した。我々の知見は、超長期的自律性が、人間の前例を超えた複雑性を自律探索可能なAIへのスケーラブルな設計指針を提供することを実証している。
English
The advancement of artificial intelligence toward agentic science is currently bottlenecked by the challenge of ultra-long-horizon autonomy, the ability to sustain strategic coherence and iterative correction over experimental cycles spanning days or weeks. While Large Language Models (LLMs) have demonstrated prowess in short-horizon reasoning, they are easily overwhelmed by execution details in the high-dimensional, delayed-feedback environments of real-world research, failing to consolidate sparse feedback into coherent long-term guidance. Here, we present ML-Master 2.0, an autonomous agent that masters ultra-long-horizon machine learning engineering (MLE) which is a representative microcosm of scientific discovery. By reframing context management as a process of cognitive accumulation, our approach introduces Hierarchical Cognitive Caching (HCC), a multi-tiered architecture inspired by computer systems that enables the structural differentiation of experience over time. By dynamically distilling transient execution traces into stable knowledge and cross-task wisdom, HCC allows agents to decouple immediate execution from long-term experimental strategy, effectively overcoming the scaling limits of static context windows. In evaluations on OpenAI's MLE-Bench under 24-hour budgets, ML-Master 2.0 achieves a state-of-the-art medal rate of 56.44%. Our findings demonstrate that ultra-long-horizon autonomy provides a scalable blueprint for AI capable of autonomous exploration beyond human-precedent complexities.