ChatPaper.aiChatPaper

MARS: Modulaire Agent met Reflectief Zoeken voor Geautomatiseerd AI-onderzoek

MARS: Modular Agent with Reflective Search for Automated AI Research

February 2, 2026
Auteurs: Jiefeng Chen, Bhavana Dalvi Mishra, Jaehyun Nam, Rui Meng, Tomas Pfister, Jinsung Yoon
cs.AI

Samenvatting

Het automatiseren van AI-onderzoek verschilt van algemene software-engineering door computationeel dure evaluatie (bijvoorbeeld modeltraining) en ondoorzichtige prestatietoewijzing. Huidige op LLM gebaseerde agents worstelen hier vaak mee en genereren monolithische scripts die uitvoeringskosten en causale factoren negeren. Wij introduceren MARS (Modular Agent with Reflective Search), een raamwerk geoptimaliseerd voor autonoom AI-onderzoek. MARS steunt op drie pijlers: (1) Budgetbewuste Planning via kostenbeperkte Monte Carlo Tree Search (MCTS) om prestaties expliciet af te wegen tegen uitvoeringskosten; (2) Modulaire Constructie, waarbij een "Ontwerp-Ontleed-Implementeer"-pijplijn wordt gebruikt om complexe onderzoeksrepositories te beheren; en (3) Vergelijkend Reflectief Geheugen, dat de toewijzing van verdiensten aanpakt door oplossingsverschillen te analyseren om hoog-signaal inzichten te destilleren. MARS behaalt state-of-the-art prestaties onder open-source raamwerken op MLE-Bench onder vergelijkbare omstandigheden en blijft concurrerend met de topmethoden op het globale klassement. Bovendien vertoont het systeem kwalitatieve "Aha!"-momenten, waarbij 63% van alle gebruikte lessen afkomstig is uit kruisende transfer tussen zoekpaden, wat aantoont dat de agent inzichten effectief generaliseert over zoekpaden heen.
English
Automating AI research differs from general software engineering due to computationally expensive evaluation (e.g., model training) and opaque performance attribution. Current LLM-based agents struggle here, often generating monolithic scripts that ignore execution costs and causal factors. We introduce MARS (Modular Agent with Reflective Search), a framework optimized for autonomous AI research. MARS relies on three pillars: (1) Budget-Aware Planning via cost-constrained Monte Carlo Tree Search (MCTS) to explicitly balance performance with execution expense; (2) Modular Construction, employing a "Design-Decompose-Implement" pipeline to manage complex research repositories; and (3) Comparative Reflective Memory, which addresses credit assignment by analyzing solution differences to distill high-signal insights. MARS achieves state-of-the-art performance among open-source frameworks on MLE-Bench under comparable settings, maintaining competitiveness with the global leaderboard's top methods. Furthermore, the system exhibits qualitative "Aha!" moments, where 63% of all utilized lessons originate from cross-branch transfer, demonstrating that the agent effectively generalizes insights across search paths.
PDF655March 19, 2026