ChatPaper.aiChatPaper

ARE: Scalabilità degli Ambienti e delle Valutazioni per Agenti

ARE: Scaling Up Agent Environments and Evaluations

September 21, 2025
Autori: Pierre Andrews, Amine Benhalloum, Gerard Moreno-Torres Bertran, Matteo Bettini, Amar Budhiraja, Ricardo Silveira Cabral, Virginie Do, Romain Froger, Emilien Garreau, Jean-Baptiste Gaya, Hugo Laurençon, Maxime Lecanu, Kunal Malkan, Dheeraj Mekala, Pierre Ménard, Grégoire Mialon, Ulyana Piterbarg, Mikhail Plekhanov, Mathieu Rita, Andrey Rusakov, Thomas Scialom, Vladislav Vorotilov, Mengjue Wang, Ian Yu
cs.AI

Abstract

Presentiamo Meta Agents Research Environments (ARE), una piattaforma di ricerca per la creazione scalabile di ambienti, l'integrazione di applicazioni sintetiche o reali e l'esecuzione di orchestrazioni agentiche. ARE fornisce astrazioni semplici per costruire ambienti complessi e diversificati, ciascuno con le proprie regole, strumenti, contenuti e verificatori, contribuendo a colmare il divario tra lo sviluppo dei modelli e il dispiegamento nel mondo reale. Proponiamo inoltre Gaia2, un benchmark costruito in ARE e progettato per misurare le capacità generali degli agenti. Oltre alla ricerca e all'esecuzione, Gaia2 richiede agli agenti di gestire ambiguità e rumore, adattarsi a ambienti dinamici, collaborare con altri agenti e operare sotto vincoli temporali. A differenza dei benchmark precedenti, Gaia2 funziona in modo asincrono, portando alla luce nuovi modi di fallimento che sono invisibili in contesti statici. I nostri esperimenti dimostrano che nessun sistema domina l'intero spettro dell'intelligenza: un ragionamento più forte spesso comporta un costo in termini di efficienza, e le curve di scalabilità del budget raggiungono un plateau, evidenziando la necessità di nuove architetture e strategie di calcolo adattive. Forse ancora più importante, le astrazioni di ARE consentono l'estensione continua di Gaia2 ad altri ambienti, permettendo alla comunità di creare rapidamente nuovi benchmark su misura per i propri domini. Nella seconda metà dell'IA, il progresso dipende sempre più dalla definizione di compiti significativi e valutazioni robuste per spingere avanti le capacità di frontiera.
English
We introduce Meta Agents Research Environments (ARE), a research platform for scalable creation of environments, integration of synthetic or real applications, and execution of agentic orchestrations. ARE provides simple abstractions to build complex and diverse environments, each with their own rules, tools, content, and verifiers, helping to bridge the gap between model development and real-world deployment. We also propose Gaia2, a benchmark built in ARE and designed to measure general agent capabilities. Beyond search and execution, Gaia2 requires agents to handle ambiguities and noise, adapt to dynamic environments, collaborate with other agents, and operate under temporal constraints. Unlike prior benchmarks, Gaia2 runs asynchronously, surfacing new failure modes that are invisible in static settings. Our experiments show that no system dominates across the intelligence spectrum: stronger reasoning often comes at the cost of efficiency, and budget scaling curves plateau, highlighting the need for new architectures and adaptive compute strategies. Perhaps more importantly, ARE abstractions enable continuous extension of Gaia2 to other environments, empowering the community to rapidly create new benchmarks tailored to their domains. In AI's second half, progress increasingly depends on defining meaningful tasks and robust evaluations to drive frontier capabilities forward.
PDF344September 23, 2025