MARS: Agente Modular con Búsqueda Reflexiva para la Investigación Automatizada en IA
MARS: Modular Agent with Reflective Search for Automated AI Research
February 2, 2026
Autores: Jiefeng Chen, Bhavana Dalvi Mishra, Jaehyun Nam, Rui Meng, Tomas Pfister, Jinsung Yoon
cs.AI
Resumen
La automatización de la investigación en IA difiere de la ingeniería de software general debido a la evaluación computacionalmente costosa (por ejemplo, el entrenamiento de modelos) y a la atribución de rendimiento opaca. Los agentes actuales basados en LLM tienen dificultades aquí, generando a menudo scripts monolíticos que ignoran los costes de ejecución y los factores causales. Presentamos MARS (Agente Modular con Búsqueda Reflexiva), un marco optimizado para la investigación autónoma en IA. MARS se basa en tres pilares: (1) Planificación Consciente del Presupuesto mediante Búsqueda de Árbol de Monte Carlo (MCTS) con restricciones de coste para equilibrar explícitamente el rendimiento con el gasto de ejecución; (2) Construcción Modular, que emplea una canalización "Diseñar-Descomponer-Implementar" para gestionar repositorios de investigación complejos; y (3) Memoria Reflexiva Comparativa, que aborda la asignación de crédito analizando diferencias entre soluciones para destilar insights de alta señal. MARS logra un rendimiento de vanguardia entre los marcos de código abierto en MLE-Bench bajo configuraciones comparables, manteniendo competitividad con los métodos líderes del ranking global. Además, el sistema exhibe cualitativamente momentos de "¡Eureka!", donde el 63% de las lecciones utilizadas se originan de transferencia entre ramas, demostrando que el agente generaliza efectivamente los insights a través de las rutas de búsqueda.
English
Automating AI research differs from general software engineering due to computationally expensive evaluation (e.g., model training) and opaque performance attribution. Current LLM-based agents struggle here, often generating monolithic scripts that ignore execution costs and causal factors. We introduce MARS (Modular Agent with Reflective Search), a framework optimized for autonomous AI research. MARS relies on three pillars: (1) Budget-Aware Planning via cost-constrained Monte Carlo Tree Search (MCTS) to explicitly balance performance with execution expense; (2) Modular Construction, employing a "Design-Decompose-Implement" pipeline to manage complex research repositories; and (3) Comparative Reflective Memory, which addresses credit assignment by analyzing solution differences to distill high-signal insights. MARS achieves state-of-the-art performance among open-source frameworks on MLE-Bench under comparable settings, maintaining competitiveness with the global leaderboard's top methods. Furthermore, the system exhibits qualitative "Aha!" moments, where 63% of all utilized lessons originate from cross-branch transfer, demonstrating that the agent effectively generalizes insights across search paths.