MARS: Agente Modulare con Ricerca Riflessiva per la Ricerca IA Automatizzata

Abstract

L'automazione della ricerca in IA si differenzia dall'ingegneria del software generale a causa della valutazione computazionalmente costosa (ad esempio, l'addestramento del modello) e dell'opaca attribuzione delle prestazioni. Gli agenti attuali basati su LLM faticano in questo contesto, generando spesso script monolitici che ignorano i costi di esecuzione e i fattori causali. Introduciamo MARS (Modular Agent with Reflective Search), un framework ottimizzato per la ricerca autonoma in IA. MARS si basa su tre pilastri: (1) Pianificazione Consapevole del Budget tramite Monte Carlo Tree Search (MCTS) vincolata dai costi, per bilanciare esplicitamente le prestazioni con la spesa di esecuzione; (2) Costruzione Modulare, che impiega una pipeline "Progetta-Scomponi-Implementa" per gestire repository di ricerca complessi; e (3) Memoria Riflessiva Comparativa, che affronta l'assegnazione del merito analizzando le differenze tra le soluzioni per distillare insight ad alto segnale. MARS raggiunge prestazioni all'avanguardia tra i framework open-source su MLE-Bench in condizioni comparabili, mantenendo competitività con i metodi migliori della classifica globale. Inoltre, il sistema mostra qualitativi momenti "Aha!", in cui il 63% di tutte le lezioni utilizzate origina da trasferimenti tra rami di ricerca, dimostrando che l'agente generalizza efficacemente le intuizioni attraverso i percorsi di esplorazione.

English

Automating AI research differs from general software engineering due to computationally expensive evaluation (e.g., model training) and opaque performance attribution. Current LLM-based agents struggle here, often generating monolithic scripts that ignore execution costs and causal factors. We introduce MARS (Modular Agent with Reflective Search), a framework optimized for autonomous AI research. MARS relies on three pillars: (1) Budget-Aware Planning via cost-constrained Monte Carlo Tree Search (MCTS) to explicitly balance performance with execution expense; (2) Modular Construction, employing a "Design-Decompose-Implement" pipeline to manage complex research repositories; and (3) Comparative Reflective Memory, which addresses credit assignment by analyzing solution differences to distill high-signal insights. MARS achieves state-of-the-art performance among open-source frameworks on MLE-Bench under comparable settings, maintaining competitiveness with the global leaderboard's top methods. Furthermore, the system exhibits qualitative "Aha!" moments, where 63% of all utilized lessons originate from cross-branch transfer, demonstrating that the agent effectively generalizes insights across search paths.

MARS: Agente Modulare con Ricerca Riflessiva per la Ricerca IA Automatizzata

MARS: Modular Agent with Reflective Search for Automated AI Research

Abstract

Support