ChatPaper.aiChatPaper

MARS: 자동화 AI 연구를 위한 반성적 탐색 모듈형 에이전트

MARS: Modular Agent with Reflective Search for Automated AI Research

February 2, 2026
저자: Jiefeng Chen, Bhavana Dalvi Mishra, Jaehyun Nam, Rui Meng, Tomas Pfister, Jinsung Yoon
cs.AI

초록

AI 연구 자동화는 계산 비용이 많이 드는 평가(예: 모델 학습)와 불명확한 성과 귀인으로 인해 일반 소프트웨어 엔지니어링과 차별화됩니다. 현재 LLM 기반 에이전트는 실행 비용과 인과 관계를 무시한 단일적 스크립트를 생성하는 경우가 많아 이 분야에서 어려움을 겪고 있습니다. 우리는 자율적 AI 연구에 최적화된 프레임워크인 MARS(Modular Agent with Reflective Search)를 소개합니다. MARS는 세 가지 핵심 요소에 기반합니다: (1) 비용 제약 몬테카를로 트리 탐색(MCTS)을 통한 예산 인식 계획으로 성능과 실행 비용을 명시적으로 균형 조정하며, (2) 복잡한 연구 저장소를 관리하기 위한 "설계-분해-구현" 파이프라인을 활용하는 모듈식 구성, 그리고 (3) 솔루션 차이점을 분석하여 높은 신호의 통찰력을 추출하여 크레딧 할당 문제를 해결하는 비교 반추 메모리입니다. MARS는 유사한 설정 하에서 MLE-Bench에서 오픈소스 프레임워크 중 최첨단 성능을 달성하며, 글로벌 리더보드 상위 방법과도 경쟁력을 유지합니다. 더 나아가 본 시스템은 질적 측면에서 'Aha!' 순간을 보여주는데, 활용된 학습 경험의 63%가 교차 분기 전이에서 비롯되어 에이전트가 검색 경로를 가로지르며 통찰력을 효과적으로 일반화함을 입증합니다.
English
Automating AI research differs from general software engineering due to computationally expensive evaluation (e.g., model training) and opaque performance attribution. Current LLM-based agents struggle here, often generating monolithic scripts that ignore execution costs and causal factors. We introduce MARS (Modular Agent with Reflective Search), a framework optimized for autonomous AI research. MARS relies on three pillars: (1) Budget-Aware Planning via cost-constrained Monte Carlo Tree Search (MCTS) to explicitly balance performance with execution expense; (2) Modular Construction, employing a "Design-Decompose-Implement" pipeline to manage complex research repositories; and (3) Comparative Reflective Memory, which addresses credit assignment by analyzing solution differences to distill high-signal insights. MARS achieves state-of-the-art performance among open-source frameworks on MLE-Bench under comparable settings, maintaining competitiveness with the global leaderboard's top methods. Furthermore, the system exhibits qualitative "Aha!" moments, where 63% of all utilized lessons originate from cross-branch transfer, demonstrating that the agent effectively generalizes insights across search paths.
PDF565February 8, 2026