ARE: Escalando Entornos y Evaluaciones de Agentes
ARE: Scaling Up Agent Environments and Evaluations
September 21, 2025
Autores: Pierre Andrews, Amine Benhalloum, Gerard Moreno-Torres Bertran, Matteo Bettini, Amar Budhiraja, Ricardo Silveira Cabral, Virginie Do, Romain Froger, Emilien Garreau, Jean-Baptiste Gaya, Hugo Laurençon, Maxime Lecanu, Kunal Malkan, Dheeraj Mekala, Pierre Ménard, Grégoire Mialon, Ulyana Piterbarg, Mikhail Plekhanov, Mathieu Rita, Andrey Rusakov, Thomas Scialom, Vladislav Vorotilov, Mengjue Wang, Ian Yu
cs.AI
Resumen
Presentamos Meta Agents Research Environments (ARE), una plataforma de investigación para la creación escalable de entornos, la integración de aplicaciones sintéticas o reales y la ejecución de orquestaciones agentivas. ARE proporciona abstracciones simples para construir entornos complejos y diversos, cada uno con sus propias reglas, herramientas, contenido y verificadores, ayudando a cerrar la brecha entre el desarrollo de modelos y su implementación en el mundo real. También proponemos Gaia2, un punto de referencia construido en ARE y diseñado para medir las capacidades generales de los agentes. Más allá de la búsqueda y la ejecución, Gaia2 requiere que los agentes manejen ambigüedades y ruido, se adapten a entornos dinámicos, colaboren con otros agentes y operen bajo restricciones temporales. A diferencia de los puntos de referencia anteriores, Gaia2 funciona de manera asíncrona, revelando nuevos modos de fallo que son invisibles en configuraciones estáticas. Nuestros experimentos muestran que ningún sistema domina en todo el espectro de inteligencia: un razonamiento más fuerte a menudo tiene un costo en eficiencia, y las curvas de escalado de presupuesto se estabilizan, destacando la necesidad de nuevas arquitecturas y estrategias de cómputo adaptativo. Quizás más importante aún, las abstracciones de ARE permiten la extensión continua de Gaia2 a otros entornos, empoderando a la comunidad para crear rápidamente nuevos puntos de referencia adaptados a sus dominios. En la segunda mitad de la IA, el progreso depende cada vez más de definir tareas significativas y evaluaciones robustas para impulsar las capacidades de vanguardia.
English
We introduce Meta Agents Research Environments (ARE), a research platform for
scalable creation of environments, integration of synthetic or real
applications, and execution of agentic orchestrations. ARE provides simple
abstractions to build complex and diverse environments, each with their own
rules, tools, content, and verifiers, helping to bridge the gap between model
development and real-world deployment. We also propose Gaia2, a benchmark built
in ARE and designed to measure general agent capabilities. Beyond search and
execution, Gaia2 requires agents to handle ambiguities and noise, adapt to
dynamic environments, collaborate with other agents, and operate under temporal
constraints. Unlike prior benchmarks, Gaia2 runs asynchronously, surfacing new
failure modes that are invisible in static settings. Our experiments show that
no system dominates across the intelligence spectrum: stronger reasoning often
comes at the cost of efficiency, and budget scaling curves plateau,
highlighting the need for new architectures and adaptive compute strategies.
Perhaps more importantly, ARE abstractions enable continuous extension of Gaia2
to other environments, empowering the community to rapidly create new
benchmarks tailored to their domains. In AI's second half, progress
increasingly depends on defining meaningful tasks and robust evaluations to
drive frontier capabilities forward.