Verso una Scienza Agente a Orizzonte Ultralungo: Accumulo Cognitivo per l'Ingegneria del Machine Learning

Abstract

L'avanzamento dell'intelligenza artificiale verso una scienza agenziale è attualmente limitato dalla sfida dell'autonomia a orizzonte ultra-lungo, ovvero la capacità di mantenere coerenza strategica e correzione iterativa su cicli sperimentali della durata di giorni o settimane. Sebbene i Large Language Model (LLM) abbiano dimostrato abilità nel ragionamento a breve termine, vengono facilmente sopraffatti dai dettagli esecutivi negli ambienti di ricerca reali ad alto dimensionalità e feedback ritardato, fallendo nel consolidare feedback sporadici in una guida coerente a lungo termine. Qui presentiamo ML-Master 2.0, un agente autonomo che padroneggia l'ingegneria del machine learning (MLE) a orizzonte ultra-lungo, un microcosmo rappresentativo della scoperta scientifica. Riconcettualizzando la gestione del contesto come un processo di accumulo cognitivo, il nostro approccio introduce l'Hierarchical Cognitive Caching (HCC), un'architettura multilivello ispirata ai sistemi informatici che consente la differenziazione strutturale dell'esperienza nel tempo. Dinamicamente distillando tracce esecutive transitorie in conoscenza stabile e saggezza cross-task, l'HCC permette agli agenti di disaccoppiare l'esecuzione immediata dalla strategia sperimentale a lungo termine, superando efficacemente i limiti di scalabilità delle finestre di contesto statiche. Nelle valutazioni su MLE-Bench di OpenAI con budget di 24 ore, ML-Master 2.0 raggiunge un tasso di medaglie state-of-the-art del 56,44%. I nostri risultati dimostrano che l'autonomia a orizzonte ultra-lungo fornisce un modello scalabile per IA capaci di esplorazione autonoma oltre complessità precedentemente affrontate dall'uomo.

English

The advancement of artificial intelligence toward agentic science is currently bottlenecked by the challenge of ultra-long-horizon autonomy, the ability to sustain strategic coherence and iterative correction over experimental cycles spanning days or weeks. While Large Language Models (LLMs) have demonstrated prowess in short-horizon reasoning, they are easily overwhelmed by execution details in the high-dimensional, delayed-feedback environments of real-world research, failing to consolidate sparse feedback into coherent long-term guidance. Here, we present ML-Master 2.0, an autonomous agent that masters ultra-long-horizon machine learning engineering (MLE) which is a representative microcosm of scientific discovery. By reframing context management as a process of cognitive accumulation, our approach introduces Hierarchical Cognitive Caching (HCC), a multi-tiered architecture inspired by computer systems that enables the structural differentiation of experience over time. By dynamically distilling transient execution traces into stable knowledge and cross-task wisdom, HCC allows agents to decouple immediate execution from long-term experimental strategy, effectively overcoming the scaling limits of static context windows. In evaluations on OpenAI's MLE-Bench under 24-hour budgets, ML-Master 2.0 achieves a state-of-the-art medal rate of 56.44%. Our findings demonstrate that ultra-long-horizon autonomy provides a scalable blueprint for AI capable of autonomous exploration beyond human-precedent complexities.

Verso una Scienza Agente a Orizzonte Ultralungo: Accumulo Cognitivo per l'Ingegneria del Machine Learning

Toward Ultra-Long-Horizon Agentic Science: Cognitive Accumulation for Machine Learning Engineering

Abstract

Support