ChatPaper.aiChatPaper

К сверхдолгосрочной агентной науке: когнитивное накопление в инженерии машинного обучения

Toward Ultra-Long-Horizon Agentic Science: Cognitive Accumulation for Machine Learning Engineering

January 15, 2026
Авторы: Xinyu Zhu, Yuzhu Cai, Zexi Liu, Bingyang Zheng, Cheng Wang, Rui Ye, Jiaao Chen, Hanrui Wang, Wei-Chen Wang, Yuzhi Zhang, Linfeng Zhang, Weinan E, Di Jin, Siheng Chen
cs.AI

Аннотация

Развитие искусственного интеллекта в направлении агентной науки в настоящее время сдерживается проблемой сверхдолгосрочной автономии — способности сохранять стратегическую согласованность и осуществлять итерационные корректировки в течение экспериментальных циклов, длящихся дни или недели. Хотя большие языковые модели (БЯМ) продемонстрировали мастерство в краткосрочных рассуждениях, они легко перегружаются деталями исполнения в высокоразмерных средах с запаздывающей обратной связью, характерных для реальных исследований, и не способны интегрировать редкие сигналы обратной связи в последовательное долгосрочное руководство. В данной работе представлен ML-Master 2.0 — автономный агент, который овладевает сверхдолгосрочной инженерией машинного обучения (ИМО), представляющей собой репрезентативный микрокосм научного открытия. Переосмыслив управление контекстом как процесс когнитивного накопления, наш подход представляет Иерархическое Когнитивное Кэширование (ИКК) — многоуровневую архитектуру, вдохновленную компьютерными системами, которая позволяет структурно дифференцировать опыт во времени. Динамически преобразуя временные следы выполнения в стабильные знания и межзадачную мудрость, ИКК позволяет агентам разделять непосредственное исполнение и долгосрочную экспериментальную стратегию, эффективно преодолевая ограничения масштабирования статических контекстных окон. В оценках на MLE-Bench от OpenAI при 24-часовом бюджете ML-Master 2.0 достигает рекордного уровня получения медалей в 56,44%. Наши результаты демонстрируют, что сверхдолгосрочная автономия предлагает масштабируемую модель для ИИ, способного к автономному исследованию за пределами сложностей, имеющих человеческие прецеденты.
English
The advancement of artificial intelligence toward agentic science is currently bottlenecked by the challenge of ultra-long-horizon autonomy, the ability to sustain strategic coherence and iterative correction over experimental cycles spanning days or weeks. While Large Language Models (LLMs) have demonstrated prowess in short-horizon reasoning, they are easily overwhelmed by execution details in the high-dimensional, delayed-feedback environments of real-world research, failing to consolidate sparse feedback into coherent long-term guidance. Here, we present ML-Master 2.0, an autonomous agent that masters ultra-long-horizon machine learning engineering (MLE) which is a representative microcosm of scientific discovery. By reframing context management as a process of cognitive accumulation, our approach introduces Hierarchical Cognitive Caching (HCC), a multi-tiered architecture inspired by computer systems that enables the structural differentiation of experience over time. By dynamically distilling transient execution traces into stable knowledge and cross-task wisdom, HCC allows agents to decouple immediate execution from long-term experimental strategy, effectively overcoming the scaling limits of static context windows. In evaluations on OpenAI's MLE-Bench under 24-hour budgets, ML-Master 2.0 achieves a state-of-the-art medal rate of 56.44%. Our findings demonstrate that ultra-long-horizon autonomy provides a scalable blueprint for AI capable of autonomous exploration beyond human-precedent complexities.
PDF261January 17, 2026