ChatPaper.aiChatPaper

Gaia2: 동적 및 비동기 환경에서의 LLM 에이전트 벤치마킹

Gaia2: Benchmarking LLM Agents on Dynamic and Asynchronous Environments

February 12, 2026
저자: Romain Froger, Pierre Andrews, Matteo Bettini, Amar Budhiraja, Ricardo Silveira Cabral, Virginie Do, Emilien Garreau, Jean-Baptiste Gaya, Hugo Laurençon, Maxime Lecanu, Kunal Malkan, Dheeraj Mekala, Pierre Ménard, Gerard Moreno-Torres Bertran, Ulyana Piterbarg, Mikhail Plekhanov, Mathieu Rita, Andrey Rusakov, Vladislav Vorotilov, Mengjue Wang, Ian Yu, Amine Benhalloum, Grégoire Mialon, Thomas Scialom
cs.AI

초록

우리는 현실적이고 비동기적인 환경에서 대규모 언어 모델 에이전트를 평가하기 위한 벤치마크인 Gaia2를 소개한다. 기존의 정적이거나 동기식 평가와 달리, Gaia2는 환경이 에이전트의 행동과 독립적으로 변화하는 시나리오를 도입하여, 에이전트가 시간적 제약 하에 작동하고, 노이즈가 많고 동적인 이벤트에 적응하며, 모호성을 해결하고, 다른 에이전트와 협업하도록 요구한다. 각 시나리오는 기록-행동 검증기와 결합되어 세분화된 행동 수준의 평가를 가능하게 하며, 검증 가능한 보상으로부터의 강화 학습에 Gaia2를 직접 사용할 수 있게 한다. 최첨단 독점 및 오픈소스 모델에 대한 우리의 평가 결과, 단일 모델이 모든 능력에서 우월하지는 않음을 보여준다: GPT-5(high)는 42% pass@1로 가장 강력한 종합 점수에 도달했지만 시간 민감성 작업에서는 실패했고, Claude-4 Sonnet은 정확도와 속도를 비용과 절충했으며, Kimi-K2는 21% pass@1로 오픈소스 모델 중 선두를 달렸다. 이러한 결과는 추론, 효율성, 견고성 사이의 근본적인 절충을 부각시키고 'sim2real' 격차를 해소하는 데 있는 도전 과제를 드러낸다. Gaia2는 오픈소스 Agents Research Environments 플랫폼 기반의 소비자 환경 위에 구축되었으며 확장이 용이하도록 설계되었다. 기반 ARE 프레임워크와 함께 Gaia2를 공개함으로써, 우리는 실용적인 차세대 에이전트 시스템을 개발, 벤치마킹, 훈련시키기 위한 유연한 인프라를 커뮤니티에 제공하고자 한다.
English
We introduce Gaia2, a benchmark for evaluating large language model agents in realistic, asynchronous environments. Unlike prior static or synchronous evaluations, Gaia2 introduces scenarios where environments evolve independently of agent actions, requiring agents to operate under temporal constraints, adapt to noisy and dynamic events, resolve ambiguity, and collaborate with other agents. Each scenario is paired with a write-action verifier, enabling fine-grained, action-level evaluation and making Gaia2 directly usable for reinforcement learning from verifiable rewards. Our evaluation of state-of-the-art proprietary and open-source models shows that no model dominates across capabilities: GPT-5 (high) reaches the strongest overall score of 42% pass@1 but fails on time-sensitive tasks, Claude-4 Sonnet trades accuracy and speed for cost, Kimi-K2 leads among open-source models with 21% pass@1. These results highlight fundamental trade-offs between reasoning, efficiency, robustness, and expose challenges in closing the "sim2real" gap. Gaia2 is built on a consumer environment with the open-source Agents Research Environments platform and designed to be easy to extend. By releasing Gaia2 alongside the foundational ARE framework, we aim to provide the community with a flexible infrastructure for developing, benchmarking, and training the next generation of practical agent systems.
PDF30February 14, 2026