초장기 지향 에이전트 과학을 향하여: 머신러닝 엔지어링을 위한 인지 축적
Toward Ultra-Long-Horizon Agentic Science: Cognitive Accumulation for Machine Learning Engineering
January 15, 2026
저자: Xinyu Zhu, Yuzhu Cai, Zexi Liu, Bingyang Zheng, Cheng Wang, Rui Ye, Jiaao Chen, Hanrui Wang, Wei-Chen Wang, Yuzhi Zhang, Linfeng Zhang, Weinan E, Di Jin, Siheng Chen
cs.AI
초록
인공지능의 에이전트 기반 과학으로의 진전은 현재 수일 또는 수주에 걸친 실험 주기를 통해 전략적 일관성과 반복적 수정을 유지하는 능력인 초장기적 자율성이라는 과제에 의해 병목 현상을 겪고 있습니다. 대규모 언어 모델(LLM)은 단기적 추론에서 뛰어난 능력을 보여주었지만, 현실 세계 연구의 고차원적이고 지연된 피드백 환경에서 실행 세부사항에 쉽게 압도되어 희소한 피드백을 일관된 장기 지도로 통합하지 못합니다. 본 논문에서는 과학적 발견의 대표적 축소판인 초장기적 머신러닝 엔지니어링(MLE)을 숙달하는 자율 에이전트인 ML-Master 2.0을 소개합니다. 맥락 관리를 인지적 축적 과정으로 재구성함으로써, 우리의 접근법은 컴퓨터 시스템에서 영감을 받아 시간에 따른 경험의 구조적 차별화를 가능하게 하는 다계층 아키텍처인 계층적 인지 캐싱(HCC)을 도입합니다. HCC는 일시적인 실행 흔적을 동적으로 안정적인 지식과 교차 작업 지혜로 정제함으로써 에이전트가 즉각적 실행과 장기적 실험 전략을 분리하도록 하여 정적 컨텍스트 윈도우의 확장 한계를 효과적으로 극복합니다. 24시간 예산 조건에서 OpenAI의 MLE-Bench에 대한 평가에서 ML-Master 2.0은 56.44%의 최첨단 메달 달성률을 기록했습니다. 우리의 연구 결과는 초장기적 자율성이 인간의 선례를 넘어선 복잡성까지 자율적 탐색이 가능한 AI를 위한 확장 가능한 청사진을 제공함을 입증합니다.
English
The advancement of artificial intelligence toward agentic science is currently bottlenecked by the challenge of ultra-long-horizon autonomy, the ability to sustain strategic coherence and iterative correction over experimental cycles spanning days or weeks. While Large Language Models (LLMs) have demonstrated prowess in short-horizon reasoning, they are easily overwhelmed by execution details in the high-dimensional, delayed-feedback environments of real-world research, failing to consolidate sparse feedback into coherent long-term guidance. Here, we present ML-Master 2.0, an autonomous agent that masters ultra-long-horizon machine learning engineering (MLE) which is a representative microcosm of scientific discovery. By reframing context management as a process of cognitive accumulation, our approach introduces Hierarchical Cognitive Caching (HCC), a multi-tiered architecture inspired by computer systems that enables the structural differentiation of experience over time. By dynamically distilling transient execution traces into stable knowledge and cross-task wisdom, HCC allows agents to decouple immediate execution from long-term experimental strategy, effectively overcoming the scaling limits of static context windows. In evaluations on OpenAI's MLE-Bench under 24-hour budgets, ML-Master 2.0 achieves a state-of-the-art medal rate of 56.44%. Our findings demonstrate that ultra-long-horizon autonomy provides a scalable blueprint for AI capable of autonomous exploration beyond human-precedent complexities.