ARE: Het Opschalen van Agentomgevingen en Evaluaties
ARE: Scaling Up Agent Environments and Evaluations
September 21, 2025
Auteurs: Pierre Andrews, Amine Benhalloum, Gerard Moreno-Torres Bertran, Matteo Bettini, Amar Budhiraja, Ricardo Silveira Cabral, Virginie Do, Romain Froger, Emilien Garreau, Jean-Baptiste Gaya, Hugo Laurençon, Maxime Lecanu, Kunal Malkan, Dheeraj Mekala, Pierre Ménard, Grégoire Mialon, Ulyana Piterbarg, Mikhail Plekhanov, Mathieu Rita, Andrey Rusakov, Thomas Scialom, Vladislav Vorotilov, Mengjue Wang, Ian Yu
cs.AI
Samenvatting
We introduceren Meta Agents Research Environments (ARE), een onderzoeksplatform voor de schaalbare creatie van omgevingen, integratie van synthetische of echte applicaties, en uitvoering van agent-gebaseerde orkestraties. ARE biedt eenvoudige abstracties om complexe en diverse omgevingen te bouwen, elk met hun eigen regels, tools, inhoud en verificatiemechanismen, wat helpt om de kloof tussen modelontwikkeling en implementatie in de echte wereld te overbruggen. We stellen ook Gaia2 voor, een benchmark gebouwd in ARE en ontworpen om algemene agentcapaciteiten te meten. Naast zoeken en uitvoeren vereist Gaia2 dat agenten omgaan met ambiguïteiten en ruis, zich aanpassen aan dynamische omgevingen, samenwerken met andere agenten en opereren onder tijdsbeperkingen. In tegenstelling tot eerdere benchmarks draait Gaia2 asynchroon, waardoor nieuwe faalmodi zichtbaar worden die in statische omgevingen onzichtbaar blijven. Onze experimenten tonen aan dat geen enkel systeem domineert over het hele intelligentiespectrum: sterkere redeneervaardigheden gaan vaak ten koste van efficiëntie, en budgetschaalcurves bereiken een plateau, wat de noodzaak benadrukt van nieuwe architecturen en adaptieve rekenstrategieën. Misschien nog belangrijker is dat de abstracties van ARE continue uitbreiding van Gaia2 naar andere omgevingen mogelijk maken, waardoor de gemeenschap in staat wordt gesteld snel nieuwe benchmarks te creëren die zijn afgestemd op hun domeinen. In de tweede helft van AI hangt vooruitgang steeds meer af van het definiëren van zinvolle taken en robuuste evaluaties om grensverleggende capaciteiten vooruit te drijven.
English
We introduce Meta Agents Research Environments (ARE), a research platform for
scalable creation of environments, integration of synthetic or real
applications, and execution of agentic orchestrations. ARE provides simple
abstractions to build complex and diverse environments, each with their own
rules, tools, content, and verifiers, helping to bridge the gap between model
development and real-world deployment. We also propose Gaia2, a benchmark built
in ARE and designed to measure general agent capabilities. Beyond search and
execution, Gaia2 requires agents to handle ambiguities and noise, adapt to
dynamic environments, collaborate with other agents, and operate under temporal
constraints. Unlike prior benchmarks, Gaia2 runs asynchronously, surfacing new
failure modes that are invisible in static settings. Our experiments show that
no system dominates across the intelligence spectrum: stronger reasoning often
comes at the cost of efficiency, and budget scaling curves plateau,
highlighting the need for new architectures and adaptive compute strategies.
Perhaps more importantly, ARE abstractions enable continuous extension of Gaia2
to other environments, empowering the community to rapidly create new
benchmarks tailored to their domains. In AI's second half, progress
increasingly depends on defining meaningful tasks and robust evaluations to
drive frontier capabilities forward.