ARE: Scalabilità degli Ambienti e delle Valutazioni per Agenti

Abstract

Presentiamo Meta Agents Research Environments (ARE), una piattaforma di ricerca per la creazione scalabile di ambienti, l'integrazione di applicazioni sintetiche o reali e l'esecuzione di orchestrazioni agentiche. ARE fornisce astrazioni semplici per costruire ambienti complessi e diversificati, ciascuno con le proprie regole, strumenti, contenuti e verificatori, contribuendo a colmare il divario tra lo sviluppo dei modelli e il dispiegamento nel mondo reale. Proponiamo inoltre Gaia2, un benchmark costruito in ARE e progettato per misurare le capacità generali degli agenti. Oltre alla ricerca e all'esecuzione, Gaia2 richiede agli agenti di gestire ambiguità e rumore, adattarsi a ambienti dinamici, collaborare con altri agenti e operare sotto vincoli temporali. A differenza dei benchmark precedenti, Gaia2 funziona in modo asincrono, portando alla luce nuovi modi di fallimento che sono invisibili in contesti statici. I nostri esperimenti dimostrano che nessun sistema domina l'intero spettro dell'intelligenza: un ragionamento più forte spesso comporta un costo in termini di efficienza, e le curve di scalabilità del budget raggiungono un plateau, evidenziando la necessità di nuove architetture e strategie di calcolo adattive. Forse ancora più importante, le astrazioni di ARE consentono l'estensione continua di Gaia2 ad altri ambienti, permettendo alla comunità di creare rapidamente nuovi benchmark su misura per i propri domini. Nella seconda metà dell'IA, il progresso dipende sempre più dalla definizione di compiti significativi e valutazioni robuste per spingere avanti le capacità di frontiera.

English

We introduce Meta Agents Research Environments (ARE), a research platform for scalable creation of environments, integration of synthetic or real applications, and execution of agentic orchestrations. ARE provides simple abstractions to build complex and diverse environments, each with their own rules, tools, content, and verifiers, helping to bridge the gap between model development and real-world deployment. We also propose Gaia2, a benchmark built in ARE and designed to measure general agent capabilities. Beyond search and execution, Gaia2 requires agents to handle ambiguities and noise, adapt to dynamic environments, collaborate with other agents, and operate under temporal constraints. Unlike prior benchmarks, Gaia2 runs asynchronously, surfacing new failure modes that are invisible in static settings. Our experiments show that no system dominates across the intelligence spectrum: stronger reasoning often comes at the cost of efficiency, and budget scaling curves plateau, highlighting the need for new architectures and adaptive compute strategies. Perhaps more importantly, ARE abstractions enable continuous extension of Gaia2 to other environments, empowering the community to rapidly create new benchmarks tailored to their domains. In AI's second half, progress increasingly depends on defining meaningful tasks and robust evaluations to drive frontier capabilities forward.

ARE: Scalabilità degli Ambienti e delle Valutazioni per Agenti

ARE: Scaling Up Agent Environments and Evaluations

Abstract

Support