ChatPaper.aiChatPaper

Vers une science agentique à horizon ultra-long : l’accumulation cognitive pour l’ingénierie du machine learning

Toward Ultra-Long-Horizon Agentic Science: Cognitive Accumulation for Machine Learning Engineering

January 15, 2026
papers.authors: Xinyu Zhu, Yuzhu Cai, Zexi Liu, Bingyang Zheng, Cheng Wang, Rui Ye, Jiaao Chen, Hanrui Wang, Wei-Chen Wang, Yuzhi Zhang, Linfeng Zhang, Weinan E, Di Jin, Siheng Chen
cs.AI

papers.abstract

Le progrès de l'intelligence artificielle vers une science agentique est actuellement freiné par le défi de l'autonomie à horizon ultra-long, c'est-à-dire la capacité à maintenir une cohérence stratégique et une correction itérative sur des cycles expérimentaux s'étalant sur plusieurs jours ou semaines. Si les grands modèles de langage (LLM) ont démontré leur prouesse en raisonnement à court terme, ils sont facilement submergés par les détails d'exécution dans les environnements de recherche réels à haute dimensionnalité et à rétroaction retardée, échouant à consolider les retours d'information épars en une guidance cohérente à long terme. Nous présentons ici ML-Master 2.0, un agent autonome maîtrisant l'ingénierie du machine learning (MLE) à horizon ultra-long, qui constitue un microcosme représentatif de la découverte scientifique. En reformulant la gestion du contexte comme un processus d'accumulation cognitive, notre approche introduit le Cache Cognitif Hiérarchique (CCH), une architecture à plusieurs niveaux inspirée des systèmes informatiques qui permet la différenciation structurelle de l'expérience dans le temps. En distillant dynamiquement les traces d'exécution transitoires en connaissances stables et en sagesse trans-tâches, le CCH permet aux agents de découpler l'exécution immédiate de la stratégie expérimentale à long terme, surmontant ainsi efficacement les limites de scalabilité des fenêtres de contexte statiques. Lors des évaluations sur MLE-Bench d'OpenAI avec des budgets de 24 heures, ML-Master 2.0 atteint un taux de médaille de pointe de 56,44 %. Nos résultats démontrent que l'autonomie à horizon ultra-long fournit une feuille de route scalable pour des IA capables d'exploration autonome au-delà des complexités précédemment établies par l'homme.
English
The advancement of artificial intelligence toward agentic science is currently bottlenecked by the challenge of ultra-long-horizon autonomy, the ability to sustain strategic coherence and iterative correction over experimental cycles spanning days or weeks. While Large Language Models (LLMs) have demonstrated prowess in short-horizon reasoning, they are easily overwhelmed by execution details in the high-dimensional, delayed-feedback environments of real-world research, failing to consolidate sparse feedback into coherent long-term guidance. Here, we present ML-Master 2.0, an autonomous agent that masters ultra-long-horizon machine learning engineering (MLE) which is a representative microcosm of scientific discovery. By reframing context management as a process of cognitive accumulation, our approach introduces Hierarchical Cognitive Caching (HCC), a multi-tiered architecture inspired by computer systems that enables the structural differentiation of experience over time. By dynamically distilling transient execution traces into stable knowledge and cross-task wisdom, HCC allows agents to decouple immediate execution from long-term experimental strategy, effectively overcoming the scaling limits of static context windows. In evaluations on OpenAI's MLE-Bench under 24-hour budgets, ML-Master 2.0 achieves a state-of-the-art medal rate of 56.44%. Our findings demonstrate that ultra-long-horizon autonomy provides a scalable blueprint for AI capable of autonomous exploration beyond human-precedent complexities.
PDF261January 17, 2026