MARS: 自動化AI研究のための反射的検索を備えたモジュラー型エージェント
MARS: Modular Agent with Reflective Search for Automated AI Research
February 2, 2026
著者: Jiefeng Chen, Bhavana Dalvi Mishra, Jaehyun Nam, Rui Meng, Tomas Pfister, Jinsung Yoon
cs.AI
要旨
AI研究の自動化は、計算コストが高い評価(例:モデル学習)と不透明な性能帰属のため、一般的なソフトウェア工学とは異なる。現在のLLMベースのエージェントは、実行コストや因果関係を無視した単一スクリプトを生成しがちで、この点で課題がある。本論文では、自律的なAI研究に最適化されたフレームワークMARS(Modular Agent with Reflective Search)を提案する。MARSは以下の3つの柱に依存する:(1)コスト制約付きモンテカルロ木探索(MCTS)による「予算考慮型計画」で、性能と実行コストのバランスを明示的に調整;(2)複雑な研究リポジトリを管理する「設計-分解-実装」パイプラインを採用した「モジュラー構築」;(3)解決策の差異分析を通じて高信頼性の知見を抽出し、信用割当問題に対処する「比較反射メモリ」。MARSは、同等設定下でのMLE-Benchにおいてオープンソースフレームワーク中最も優れた性能を達成し、グローバルリーダーボードのトップ手法と競合する水準を維持した。さらに、システムは質的な「発見的瞬間」を示し、全活用知見の63%が異なる探索経路間での転移に由来することから、エージェントが探索経路を超えて知見を効果的に一般化できていることが実証された。
English
Automating AI research differs from general software engineering due to computationally expensive evaluation (e.g., model training) and opaque performance attribution. Current LLM-based agents struggle here, often generating monolithic scripts that ignore execution costs and causal factors. We introduce MARS (Modular Agent with Reflective Search), a framework optimized for autonomous AI research. MARS relies on three pillars: (1) Budget-Aware Planning via cost-constrained Monte Carlo Tree Search (MCTS) to explicitly balance performance with execution expense; (2) Modular Construction, employing a "Design-Decompose-Implement" pipeline to manage complex research repositories; and (3) Comparative Reflective Memory, which addresses credit assignment by analyzing solution differences to distill high-signal insights. MARS achieves state-of-the-art performance among open-source frameworks on MLE-Bench under comparable settings, maintaining competitiveness with the global leaderboard's top methods. Furthermore, the system exhibits qualitative "Aha!" moments, where 63% of all utilized lessons originate from cross-branch transfer, demonstrating that the agent effectively generalizes insights across search paths.