ARE: Escalando Entornos y Evaluaciones de Agentes

Resumen

Presentamos Meta Agents Research Environments (ARE), una plataforma de investigación para la creación escalable de entornos, la integración de aplicaciones sintéticas o reales y la ejecución de orquestaciones agentivas. ARE proporciona abstracciones simples para construir entornos complejos y diversos, cada uno con sus propias reglas, herramientas, contenido y verificadores, ayudando a cerrar la brecha entre el desarrollo de modelos y su implementación en el mundo real. También proponemos Gaia2, un punto de referencia construido en ARE y diseñado para medir las capacidades generales de los agentes. Más allá de la búsqueda y la ejecución, Gaia2 requiere que los agentes manejen ambigüedades y ruido, se adapten a entornos dinámicos, colaboren con otros agentes y operen bajo restricciones temporales. A diferencia de los puntos de referencia anteriores, Gaia2 funciona de manera asíncrona, revelando nuevos modos de fallo que son invisibles en configuraciones estáticas. Nuestros experimentos muestran que ningún sistema domina en todo el espectro de inteligencia: un razonamiento más fuerte a menudo tiene un costo en eficiencia, y las curvas de escalado de presupuesto se estabilizan, destacando la necesidad de nuevas arquitecturas y estrategias de cómputo adaptativo. Quizás más importante aún, las abstracciones de ARE permiten la extensión continua de Gaia2 a otros entornos, empoderando a la comunidad para crear rápidamente nuevos puntos de referencia adaptados a sus dominios. En la segunda mitad de la IA, el progreso depende cada vez más de definir tareas significativas y evaluaciones robustas para impulsar las capacidades de vanguardia.

English

We introduce Meta Agents Research Environments (ARE), a research platform for scalable creation of environments, integration of synthetic or real applications, and execution of agentic orchestrations. ARE provides simple abstractions to build complex and diverse environments, each with their own rules, tools, content, and verifiers, helping to bridge the gap between model development and real-world deployment. We also propose Gaia2, a benchmark built in ARE and designed to measure general agent capabilities. Beyond search and execution, Gaia2 requires agents to handle ambiguities and noise, adapt to dynamic environments, collaborate with other agents, and operate under temporal constraints. Unlike prior benchmarks, Gaia2 runs asynchronously, surfacing new failure modes that are invisible in static settings. Our experiments show that no system dominates across the intelligence spectrum: stronger reasoning often comes at the cost of efficiency, and budget scaling curves plateau, highlighting the need for new architectures and adaptive compute strategies. Perhaps more importantly, ARE abstractions enable continuous extension of Gaia2 to other environments, empowering the community to rapidly create new benchmarks tailored to their domains. In AI's second half, progress increasingly depends on defining meaningful tasks and robust evaluations to drive frontier capabilities forward.

ARE: Escalando Entornos y Evaluaciones de Agentes

ARE: Scaling Up Agent Environments and Evaluations

Resumen

Support