RobotArena unendlich: Skalierbares Robotik-Benchmarking durch Real-zu-Sim-Übersetzung
RobotArena infty: Scalable Robot Benchmarking via Real-to-Sim Translation
October 27, 2025
papers.authors: Yash Jangir, Yidi Zhang, Kashu Yamazaki, Chenyu Zhang, Kuan-Hsun Tu, Tsung-Wei Ke, Lei Ke, Yonatan Bisk, Katerina Fragkiadaki
cs.AI
papers.abstract
Die Entwicklung von Robotergeneralisten – instruierbaren Agenten, die in der Lage sind, verschiedene Aufgaben in verschiedenen Umgebungen auszuführen – erfordert rigorose und skalierbare Evaluierungsverfahren. Dennoch ist die Tests von Robotik-Policies in der realen Welt nach wie vor grundlegend eingeschränkt: sie ist arbeitsintensiv, langsam, in großem Maßstab unsicher und schwer zu reproduzieren. Bestehende Simulations-Benchmarks sind ähnlich limitiert, da sie Policies innerhalb derselben synthetischen Domänen trainieren und testen und keine Modelle bewerten können, die auf realen Demonstrationen oder alternativen Simulationsumgebungen trainiert wurden. Mit zunehmendem Umfang und Komplexität der Policies verschärfen sich diese Hindernisse noch weiter, da die Definition von "Erfolg" in der Robotik oft von nuancierten menschlichen Urteilen über die Ausführungsqualität abhängt. In diesem Artikel stellen wir ein neues Benchmarking-Framework vor, das diese Herausforderungen überwindet, indem es die VLA-Evaluierung in groß angelegte simulierte Umgebungen verlagert, die mit Online-Menschliches-Feedback angereichert sind. Unter Ausnutzung von Fortschritten bei Vision-Language-Modellen, generativer 2D-zu-3D-Modellierung und differentiellem Rendering wandelt unser Ansatz automatisch Video-Demonstrationen aus weit verbreiteten Robotik-Datensätzen in simulierte Gegenstücke um. Innerhalb dieser digitalen Zwillinge bewerten wir VLA-Policies sowohl mit automatischer, VLM-gestützter Bewertung als auch mit skalierbaren menschlichen Präferenzurteilen, die von Crowdworkern gesammelt werden. Dadurch wandelt sich die menschliche Beteiligung von mühsamer Szeneneinrichtung, Zurücksetzung und Sicherheitsüberwachung in leichgewichtige Präferenzvergleiche. Um die Robustheit zu messen, stören wir die simulierten Umgebungen systematisch entlang mehrerer Achsen, wie z.B. Texturen und Objektplatzierungen, und testen so die Policy-Generalisation unter kontrollierten Variationen stress. Das Ergebnis ist ein sich kontinuierlich weiterentwickelnder, reproduzierbarer und skalierbarer Benchmark für Policies der Robotermanipulation, die in der realen Welt trainiert wurden, und adressiert damit eine kritische fehlende Fähigkeit im heutigen Robotik-Umfeld.
English
The pursuit of robot generalists - instructable agents capable of performing
diverse tasks across diverse environments - demands rigorous and scalable
evaluation. Yet real-world testing of robot policies remains fundamentally
constrained: it is labor-intensive, slow, unsafe at scale, and difficult to
reproduce. Existing simulation benchmarks are similarly limited, as they train
and test policies within the same synthetic domains and cannot assess models
trained from real-world demonstrations or alternative simulation environments.
As policies expand in scope and complexity, these barriers only intensify,
since defining "success" in robotics often hinges on nuanced human judgments of
execution quality. In this paper, we introduce a new benchmarking framework
that overcomes these challenges by shifting VLA evaluation into large-scale
simulated environments augmented with online human feedback. Leveraging
advances in vision-language models, 2D-to-3D generative modeling, and
differentiable rendering, our approach automatically converts video
demonstrations from widely used robot datasets into simulated counterparts.
Within these digital twins, we assess VLA policies using both automated
VLM-guided scoring and scalable human preference judgments collected from
crowdworkers, transforming human involvement from tedious scene setup,
resetting, and safety supervision into lightweight preference comparisons. To
measure robustness, we systematically perturb simulated environments along
multiple axes, such as textures and object placements, stress-testing policy
generalization under controlled variation. The result is a continuously
evolving, reproducible, and scalable benchmark for real-world trained robot
manipulation policies, addressing a critical missing capability in today's
robotics landscape.