MARS: Agente Modular com Busca Reflexiva para Pesquisa Automatizada em IA

Resumo

A automação da pesquisa em IA difere da engenharia de software tradicional devido à avaliação computacionalmente dispendiosa (ex: treinamento de modelos) e à atribuição de desempenho opaca. Os agentes atuais baseados em LLM enfrentam dificuldades aqui, frequentemente gerando scripts monolíticos que ignoram custos de execução e fatores causais. Apresentamos o MARS (Agente Modular com Busca Reflexiva), uma estrutura otimizada para pesquisa autônoma em IA. O MARS apoia-se em três pilares: (1) Planejamento Consciente do Orçamento via Monte Carlo Tree Search (MCTS) com restrições de custo para equilibrar explicitamente desempenho com despesa de execução; (2) Construção Modular, empregando um pipeline "Projetar-Decompor-Implementar" para gerenciar repositórios de pesquisa complexos; e (3) Memória Reflexiva Comparativa, que aborda a atribuição de crédito analisando diferenças entre soluções para destilar insights de alto sinal. O MARS alcança desempenho state-of-the-art entre estruturas de código aberto no MLE-Bench em configurações equivalentes, mantendo competitividade com os principais métodos do ranking global. Adicionalmente, o sistema exibe momentos qualitativos de "Eureka!", onde 63% de todas as lições utilizadas originam-se de transferência entre ramos, demonstrando que o agente generaliza efetivamente insights entre caminhos de busca.

English

Automating AI research differs from general software engineering due to computationally expensive evaluation (e.g., model training) and opaque performance attribution. Current LLM-based agents struggle here, often generating monolithic scripts that ignore execution costs and causal factors. We introduce MARS (Modular Agent with Reflective Search), a framework optimized for autonomous AI research. MARS relies on three pillars: (1) Budget-Aware Planning via cost-constrained Monte Carlo Tree Search (MCTS) to explicitly balance performance with execution expense; (2) Modular Construction, employing a "Design-Decompose-Implement" pipeline to manage complex research repositories; and (3) Comparative Reflective Memory, which addresses credit assignment by analyzing solution differences to distill high-signal insights. MARS achieves state-of-the-art performance among open-source frameworks on MLE-Bench under comparable settings, maintaining competitiveness with the global leaderboard's top methods. Furthermore, the system exhibits qualitative "Aha!" moments, where 63% of all utilized lessons originate from cross-branch transfer, demonstrating that the agent effectively generalizes insights across search paths.

MARS: Agente Modular com Busca Reflexiva para Pesquisa Automatizada em IA

MARS: Modular Agent with Reflective Search for Automated AI Research

Resumo

Support