Rumo à Ciência Agêntica de Horizonte Ultra-Longo: Acumulação Cognitiva para a Engenharia de Aprendizado de Máquina

Resumo

O avanço da inteligência artificial em direção à ciência agêntica está atualmente limitado pelo desafio da autonomia de horizonte ultra longo – a capacidade de manter coerência estratégica e correção iterativa ao longo de ciclos experimentais que abrangem dias ou semanas. Embora os Modelos de Linguagem de Grande Escala (LLMs) tenham demonstrado proficiência no raciocínio de horizonte curto, eles são facilmente sobrecarregados por detalhes de execução em ambientes de pesquisa do mundo real, caracterizados por alta dimensionalidade e feedback retardado, falhando em consolidar feedback esparsos em orientações coerentes de longo prazo. Aqui, apresentamos o ML-Master 2.0, um agente autónomo que domina a engenharia de aprendizagem automática (MLE) de horizonte ultra longo, um microcosmo representativo da descoberta científica. Ao reformular a gestão de contexto como um processo de acumulação cognitiva, nossa abordagem introduz o Cache Cognitivo Hierárquico (HCC), uma arquitetura de múltiplos níveis inspirada em sistemas computacionais que permite a diferenciação estrutural da experiência ao longo do tempo. Ao destilar dinamicamente traços de execução transitórios em conhecimento estável e sabedoria transversal a tarefas, o HCC permite que os agentes desacoplem a execução imediata da estratégia experimental de longo prazo, superando efetivamente os limites de escalabilidade das janelas de contexto estáticas. Nas avaliações no MLE-Bench da OpenAI, com orçamentos de 24 horas, o ML-Master 2.0 atinge uma taxa de medalhas state-of-the-art de 56,44%. Nossos resultados demonstram que a autonomia de horizonte ultra longo fornece um projeto escalável para IAs capazes de exploração autónoma além de complexidades com precedentes humanos.

English

The advancement of artificial intelligence toward agentic science is currently bottlenecked by the challenge of ultra-long-horizon autonomy, the ability to sustain strategic coherence and iterative correction over experimental cycles spanning days or weeks. While Large Language Models (LLMs) have demonstrated prowess in short-horizon reasoning, they are easily overwhelmed by execution details in the high-dimensional, delayed-feedback environments of real-world research, failing to consolidate sparse feedback into coherent long-term guidance. Here, we present ML-Master 2.0, an autonomous agent that masters ultra-long-horizon machine learning engineering (MLE) which is a representative microcosm of scientific discovery. By reframing context management as a process of cognitive accumulation, our approach introduces Hierarchical Cognitive Caching (HCC), a multi-tiered architecture inspired by computer systems that enables the structural differentiation of experience over time. By dynamically distilling transient execution traces into stable knowledge and cross-task wisdom, HCC allows agents to decouple immediate execution from long-term experimental strategy, effectively overcoming the scaling limits of static context windows. In evaluations on OpenAI's MLE-Bench under 24-hour budgets, ML-Master 2.0 achieves a state-of-the-art medal rate of 56.44%. Our findings demonstrate that ultra-long-horizon autonomy provides a scalable blueprint for AI capable of autonomous exploration beyond human-precedent complexities.

Rumo à Ciência Agêntica de Horizonte Ultra-Longo: Acumulação Cognitiva para a Engenharia de Aprendizado de Máquina

Toward Ultra-Long-Horizon Agentic Science: Cognitive Accumulation for Machine Learning Engineering

Resumo

Support