MARS: Модульный агент с рефлексивным поиском для автоматизации исследований в области ИИ
MARS: Modular Agent with Reflective Search for Automated AI Research
February 2, 2026
Авторы: Jiefeng Chen, Bhavana Dalvi Mishra, Jaehyun Nam, Rui Meng, Tomas Pfister, Jinsung Yoon
cs.AI
Аннотация
Автоматизация исследований в области ИИ отличается от традиционной разработки программного обеспечения из-за вычислительно затратной оценки (например, обучения моделей) и неочевидной атрибуции производительности. Современные агенты на основе больших языковых моделей (LLM) часто сталкиваются здесь с трудностями, генерируя монолитные скрипты, которые игнорируют стоимость выполнения и причинно-следственные факторы. Мы представляем MARS (Modular Agent with Reflective Search) — фреймворк, оптимизированный для автономных исследований в области ИИ. MARS основывается на трёх принципах: (1) Планирование с учётом бюджета через поиск по дереву Монте-Карло (MCTS) с ограничениями по стоимости для явного балансирования производительности и затрат на выполнение; (2) Модульное конструирование, использующее конвейер «Проектирование-Декомпозиция-Реализация» для управления сложными исследовательскими репозиториями; и (3) Сравнительная рефлексивная память, которая решает проблему распределения заслуг путём анализа различий между решениями для извлечения высокоинформативных инсайтов. MARS демонстрирует наилучшую производительность среди фреймворков с открытым исходным кодом на MLE-Bench в сопоставимых условиях, сохраняя конкурентоспособность с топовыми методами глобального рейтинга. Более того, система демонстрирует качественные моменты «озарения», когда 63% всех используемых уроков возникают в результате межветочного переноса, что показывает способность агента эффективно обобщать инсайты across путями поиска.
English
Automating AI research differs from general software engineering due to computationally expensive evaluation (e.g., model training) and opaque performance attribution. Current LLM-based agents struggle here, often generating monolithic scripts that ignore execution costs and causal factors. We introduce MARS (Modular Agent with Reflective Search), a framework optimized for autonomous AI research. MARS relies on three pillars: (1) Budget-Aware Planning via cost-constrained Monte Carlo Tree Search (MCTS) to explicitly balance performance with execution expense; (2) Modular Construction, employing a "Design-Decompose-Implement" pipeline to manage complex research repositories; and (3) Comparative Reflective Memory, which addresses credit assignment by analyzing solution differences to distill high-signal insights. MARS achieves state-of-the-art performance among open-source frameworks on MLE-Bench under comparable settings, maintaining competitiveness with the global leaderboard's top methods. Furthermore, the system exhibits qualitative "Aha!" moments, where 63% of all utilized lessons originate from cross-branch transfer, demonstrating that the agent effectively generalizes insights across search paths.