ARE : Mise à l'échelle des environnements et des évaluations d'agents
ARE: Scaling Up Agent Environments and Evaluations
September 21, 2025
papers.authors: Pierre Andrews, Amine Benhalloum, Gerard Moreno-Torres Bertran, Matteo Bettini, Amar Budhiraja, Ricardo Silveira Cabral, Virginie Do, Romain Froger, Emilien Garreau, Jean-Baptiste Gaya, Hugo Laurençon, Maxime Lecanu, Kunal Malkan, Dheeraj Mekala, Pierre Ménard, Grégoire Mialon, Ulyana Piterbarg, Mikhail Plekhanov, Mathieu Rita, Andrey Rusakov, Thomas Scialom, Vladislav Vorotilov, Mengjue Wang, Ian Yu
cs.AI
papers.abstract
Nous présentons Meta Agents Research Environments (ARE), une plateforme de recherche pour la création évolutive d'environnements, l'intégration d'applications synthétiques ou réelles, et l'exécution d'orchestrations agentiques. ARE fournit des abstractions simples pour construire des environnements complexes et diversifiés, chacun avec ses propres règles, outils, contenus et vérificateurs, contribuant à combler le fossé entre le développement de modèles et le déploiement dans le monde réel. Nous proposons également Gaia2, un benchmark construit dans ARE et conçu pour mesurer les capacités générales des agents. Au-delà de la recherche et de l'exécution, Gaia2 exige que les agents gèrent les ambiguïtés et le bruit, s'adaptent à des environnements dynamiques, collaborent avec d'autres agents et opèrent sous des contraintes temporelles. Contrairement aux benchmarks précédents, Gaia2 fonctionne de manière asynchrone, révélant de nouveaux modes d'échec invisibles dans des configurations statiques. Nos expériences montrent qu'aucun système ne domine sur l'ensemble du spectre de l'intelligence : un raisonnement plus puissant se fait souvent au détriment de l'efficacité, et les courbes de mise à l'échelle budgétaire plafonnent, soulignant la nécessité de nouvelles architectures et de stratégies de calcul adaptatives. Plus important encore, les abstractions d'ARE permettent une extension continue de Gaia2 à d'autres environnements, permettant à la communauté de créer rapidement de nouveaux benchmarks adaptés à leurs domaines. Dans la seconde moitié de l'IA, le progrès dépend de plus en plus de la définition de tâches significatives et d'évaluations robustes pour faire avancer les capacités de pointe.
English
We introduce Meta Agents Research Environments (ARE), a research platform for
scalable creation of environments, integration of synthetic or real
applications, and execution of agentic orchestrations. ARE provides simple
abstractions to build complex and diverse environments, each with their own
rules, tools, content, and verifiers, helping to bridge the gap between model
development and real-world deployment. We also propose Gaia2, a benchmark built
in ARE and designed to measure general agent capabilities. Beyond search and
execution, Gaia2 requires agents to handle ambiguities and noise, adapt to
dynamic environments, collaborate with other agents, and operate under temporal
constraints. Unlike prior benchmarks, Gaia2 runs asynchronously, surfacing new
failure modes that are invisible in static settings. Our experiments show that
no system dominates across the intelligence spectrum: stronger reasoning often
comes at the cost of efficiency, and budget scaling curves plateau,
highlighting the need for new architectures and adaptive compute strategies.
Perhaps more importantly, ARE abstractions enable continuous extension of Gaia2
to other environments, empowering the community to rapidly create new
benchmarks tailored to their domains. In AI's second half, progress
increasingly depends on defining meaningful tasks and robust evaluations to
drive frontier capabilities forward.