MARS: Modulaire Agent met Reflectief Zoeken voor Geautomatiseerd AI-onderzoek

Samenvatting

Het automatiseren van AI-onderzoek verschilt van algemene software-engineering door computationeel dure evaluatie (bijvoorbeeld modeltraining) en ondoorzichtige prestatietoewijzing. Huidige op LLM gebaseerde agents worstelen hier vaak mee en genereren monolithische scripts die uitvoeringskosten en causale factoren negeren. Wij introduceren MARS (Modular Agent with Reflective Search), een raamwerk geoptimaliseerd voor autonoom AI-onderzoek. MARS steunt op drie pijlers: (1) Budgetbewuste Planning via kostenbeperkte Monte Carlo Tree Search (MCTS) om prestaties expliciet af te wegen tegen uitvoeringskosten; (2) Modulaire Constructie, waarbij een "Ontwerp-Ontleed-Implementeer"-pijplijn wordt gebruikt om complexe onderzoeksrepositories te beheren; en (3) Vergelijkend Reflectief Geheugen, dat de toewijzing van verdiensten aanpakt door oplossingsverschillen te analyseren om hoog-signaal inzichten te destilleren. MARS behaalt state-of-the-art prestaties onder open-source raamwerken op MLE-Bench onder vergelijkbare omstandigheden en blijft concurrerend met de topmethoden op het globale klassement. Bovendien vertoont het systeem kwalitatieve "Aha!"-momenten, waarbij 63% van alle gebruikte lessen afkomstig is uit kruisende transfer tussen zoekpaden, wat aantoont dat de agent inzichten effectief generaliseert over zoekpaden heen.

English

Automating AI research differs from general software engineering due to computationally expensive evaluation (e.g., model training) and opaque performance attribution. Current LLM-based agents struggle here, often generating monolithic scripts that ignore execution costs and causal factors. We introduce MARS (Modular Agent with Reflective Search), a framework optimized for autonomous AI research. MARS relies on three pillars: (1) Budget-Aware Planning via cost-constrained Monte Carlo Tree Search (MCTS) to explicitly balance performance with execution expense; (2) Modular Construction, employing a "Design-Decompose-Implement" pipeline to manage complex research repositories; and (3) Comparative Reflective Memory, which addresses credit assignment by analyzing solution differences to distill high-signal insights. MARS achieves state-of-the-art performance among open-source frameworks on MLE-Bench under comparable settings, maintaining competitiveness with the global leaderboard's top methods. Furthermore, the system exhibits qualitative "Aha!" moments, where 63% of all utilized lessons originate from cross-branch transfer, demonstrating that the agent effectively generalizes insights across search paths.

MARS: Modulaire Agent met Reflectief Zoeken voor Geautomatiseerd AI-onderzoek

MARS: Modular Agent with Reflective Search for Automated AI Research

Samenvatting

Support