ARE: Skalierung von Agentenumgebungen und Evaluierungen
ARE: Scaling Up Agent Environments and Evaluations
September 21, 2025
papers.authors: Pierre Andrews, Amine Benhalloum, Gerard Moreno-Torres Bertran, Matteo Bettini, Amar Budhiraja, Ricardo Silveira Cabral, Virginie Do, Romain Froger, Emilien Garreau, Jean-Baptiste Gaya, Hugo Laurençon, Maxime Lecanu, Kunal Malkan, Dheeraj Mekala, Pierre Ménard, Grégoire Mialon, Ulyana Piterbarg, Mikhail Plekhanov, Mathieu Rita, Andrey Rusakov, Thomas Scialom, Vladislav Vorotilov, Mengjue Wang, Ian Yu
cs.AI
papers.abstract
Wir stellen Meta Agents Research Environments (ARE) vor, eine Forschungsplattform für die skalierbare Erstellung von Umgebungen, die Integration von synthetischen oder realen Anwendungen und die Ausführung von agentenbasierten Orchestrierungen. ARE bietet einfache Abstraktionen, um komplexe und vielfältige Umgebungen zu erstellen, die jeweils ihre eigenen Regeln, Werkzeuge, Inhalte und Verifizierer haben, wodurch die Lücke zwischen Modellentwicklung und realem Einsatz überbrückt wird. Wir schlagen außerdem Gaia2 vor, einen Benchmark, der in ARE entwickelt wurde und dazu dient, allgemeine Fähigkeiten von Agenten zu messen. Über die Suche und Ausführung hinaus erfordert Gaia2, dass Agenten mit Unklarheiten und Rauschen umgehen, sich an dynamische Umgebungen anpassen, mit anderen Agenten zusammenarbeiten und unter zeitlichen Einschränkungen operieren. Im Gegensatz zu früheren Benchmarks läuft Gaia2 asynchron und deckt neue Fehlermodi auf, die in statischen Umgebungen unsichtbar bleiben. Unsere Experimente zeigen, dass kein System über das gesamte Spektrum der Intelligenz hinweg dominiert: Stärkeres logisches Denken geht oft auf Kosten der Effizienz, und Budget-Skalierungskurven erreichen ein Plateau, was die Notwendigkeit neuer Architekturen und adaptiver Rechenstrategien unterstreicht. Vielleicht noch wichtiger ist, dass die Abstraktionen von ARE eine kontinuierliche Erweiterung von Gaia2 auf andere Umgebungen ermöglichen, wodurch die Gemeinschaft befähigt wird, schnell neue, auf ihre Domänen zugeschnittene Benchmarks zu erstellen. In der zweiten Hälfte der KI hängt der Fortschritt zunehmend davon ab, sinnvolle Aufgaben und robuste Bewertungen zu definieren, um die Fähigkeiten an der Grenze des Möglichen voranzutreiben.
English
We introduce Meta Agents Research Environments (ARE), a research platform for
scalable creation of environments, integration of synthetic or real
applications, and execution of agentic orchestrations. ARE provides simple
abstractions to build complex and diverse environments, each with their own
rules, tools, content, and verifiers, helping to bridge the gap between model
development and real-world deployment. We also propose Gaia2, a benchmark built
in ARE and designed to measure general agent capabilities. Beyond search and
execution, Gaia2 requires agents to handle ambiguities and noise, adapt to
dynamic environments, collaborate with other agents, and operate under temporal
constraints. Unlike prior benchmarks, Gaia2 runs asynchronously, surfacing new
failure modes that are invisible in static settings. Our experiments show that
no system dominates across the intelligence spectrum: stronger reasoning often
comes at the cost of efficiency, and budget scaling curves plateau,
highlighting the need for new architectures and adaptive compute strategies.
Perhaps more importantly, ARE abstractions enable continuous extension of Gaia2
to other environments, empowering the community to rapidly create new
benchmarks tailored to their domains. In AI's second half, progress
increasingly depends on defining meaningful tasks and robust evaluations to
drive frontier capabilities forward.