Gaia2: Valutazione degli Agenti LLM in Ambienti Dinamici e Asincroni

Abstract

Introduciamo Gaia2, un benchmark per valutare gli agenti basati su grandi modelli linguistici in ambienti realistici e asincroni. A differenza delle valutazioni precedenti, statiche o sincrone, Gaia2 introduce scenari in cui gli ambienti evolvono indipendentemente dalle azioni dell'agente, richiedendo a quest'ultimo di operare sotto vincoli temporali, adattarsi a eventi rumorosi e dinamici, risolvere ambiguità e collaborare con altri agenti. Ogni scenario è associato a un verificatore di azioni di scrittura, consentendo una valutazione granulare a livello di azione e rendendo Gaia2 direttamente utilizzabile per l'apprendimento per rinforzo basato su ricompense verificabili. La nostra valutazione dei modelli proprietari e open-source più all'avanguardia mostra che nessun modello domina in tutte le capacità: GPT-5 (high) raggiunge il punteggio complessivo più alto del 42% pass@1 ma fallisce nei task sensibili al tempo, Claude-4 Sonnet sacrifica precisione e velocità per il costo, mentre Kimi-K2 guida la classifica dei modelli open-source con il 21% pass@1. Questi risultati evidenziano compromessi fondamentali tra ragionamento, efficienza, robustezza e mettono in luce le sfide nel colmare il divario "sim2real". Gaia2 è costruito su un ambiente consumer con la piattaforma open-source Agents Research Environments ed è progettato per essere facilmente estendibile. Rilasciando Gaia2 insieme al framework fondamentale ARE, miriamo a fornire alla comunità un'infrastruttura flessibile per sviluppare, valutare e addestrare la prossima generazione di sistemi agentici pratici.

English

We introduce Gaia2, a benchmark for evaluating large language model agents in realistic, asynchronous environments. Unlike prior static or synchronous evaluations, Gaia2 introduces scenarios where environments evolve independently of agent actions, requiring agents to operate under temporal constraints, adapt to noisy and dynamic events, resolve ambiguity, and collaborate with other agents. Each scenario is paired with a write-action verifier, enabling fine-grained, action-level evaluation and making Gaia2 directly usable for reinforcement learning from verifiable rewards. Our evaluation of state-of-the-art proprietary and open-source models shows that no model dominates across capabilities: GPT-5 (high) reaches the strongest overall score of 42% pass@1 but fails on time-sensitive tasks, Claude-4 Sonnet trades accuracy and speed for cost, Kimi-K2 leads among open-source models with 21% pass@1. These results highlight fundamental trade-offs between reasoning, efficiency, robustness, and expose challenges in closing the "sim2real" gap. Gaia2 is built on a consumer environment with the open-source Agents Research Environments platform and designed to be easy to extend. By releasing Gaia2 alongside the foundational ARE framework, we aim to provide the community with a flexible infrastructure for developing, benchmarking, and training the next generation of practical agent systems.

Gaia2: Valutazione degli Agenti LLM in Ambienti Dinamici e Asincroni

Gaia2: Benchmarking LLM Agents on Dynamic and Asynchronous Environments

Abstract

Support