ARE: Scalabilità degli Ambienti e delle Valutazioni per Agenti
ARE: Scaling Up Agent Environments and Evaluations
September 21, 2025
Autori: Pierre Andrews, Amine Benhalloum, Gerard Moreno-Torres Bertran, Matteo Bettini, Amar Budhiraja, Ricardo Silveira Cabral, Virginie Do, Romain Froger, Emilien Garreau, Jean-Baptiste Gaya, Hugo Laurençon, Maxime Lecanu, Kunal Malkan, Dheeraj Mekala, Pierre Ménard, Grégoire Mialon, Ulyana Piterbarg, Mikhail Plekhanov, Mathieu Rita, Andrey Rusakov, Thomas Scialom, Vladislav Vorotilov, Mengjue Wang, Ian Yu
cs.AI
Abstract
Presentiamo Meta Agents Research Environments (ARE), una piattaforma di ricerca per la creazione scalabile di ambienti, l'integrazione di applicazioni sintetiche o reali e l'esecuzione di orchestrazioni agentiche. ARE fornisce astrazioni semplici per costruire ambienti complessi e diversificati, ciascuno con le proprie regole, strumenti, contenuti e verificatori, contribuendo a colmare il divario tra lo sviluppo dei modelli e il dispiegamento nel mondo reale. Proponiamo inoltre Gaia2, un benchmark costruito in ARE e progettato per misurare le capacità generali degli agenti. Oltre alla ricerca e all'esecuzione, Gaia2 richiede agli agenti di gestire ambiguità e rumore, adattarsi a ambienti dinamici, collaborare con altri agenti e operare sotto vincoli temporali. A differenza dei benchmark precedenti, Gaia2 funziona in modo asincrono, portando alla luce nuovi modi di fallimento che sono invisibili in contesti statici. I nostri esperimenti dimostrano che nessun sistema domina l'intero spettro dell'intelligenza: un ragionamento più forte spesso comporta un costo in termini di efficienza, e le curve di scalabilità del budget raggiungono un plateau, evidenziando la necessità di nuove architetture e strategie di calcolo adattive. Forse ancora più importante, le astrazioni di ARE consentono l'estensione continua di Gaia2 ad altri ambienti, permettendo alla comunità di creare rapidamente nuovi benchmark su misura per i propri domini. Nella seconda metà dell'IA, il progresso dipende sempre più dalla definizione di compiti significativi e valutazioni robuste per spingere avanti le capacità di frontiera.
English
We introduce Meta Agents Research Environments (ARE), a research platform for
scalable creation of environments, integration of synthetic or real
applications, and execution of agentic orchestrations. ARE provides simple
abstractions to build complex and diverse environments, each with their own
rules, tools, content, and verifiers, helping to bridge the gap between model
development and real-world deployment. We also propose Gaia2, a benchmark built
in ARE and designed to measure general agent capabilities. Beyond search and
execution, Gaia2 requires agents to handle ambiguities and noise, adapt to
dynamic environments, collaborate with other agents, and operate under temporal
constraints. Unlike prior benchmarks, Gaia2 runs asynchronously, surfacing new
failure modes that are invisible in static settings. Our experiments show that
no system dominates across the intelligence spectrum: stronger reasoning often
comes at the cost of efficiency, and budget scaling curves plateau,
highlighting the need for new architectures and adaptive compute strategies.
Perhaps more importantly, ARE abstractions enable continuous extension of Gaia2
to other environments, empowering the community to rapidly create new
benchmarks tailored to their domains. In AI's second half, progress
increasingly depends on defining meaningful tasks and robust evaluations to
drive frontier capabilities forward.