ChatPaper.aiChatPaper

RobotArena unendlich: Skalierbares Robotik-Benchmarking durch Real-zu-Sim-Übersetzung

RobotArena infty: Scalable Robot Benchmarking via Real-to-Sim Translation

October 27, 2025
papers.authors: Yash Jangir, Yidi Zhang, Kashu Yamazaki, Chenyu Zhang, Kuan-Hsun Tu, Tsung-Wei Ke, Lei Ke, Yonatan Bisk, Katerina Fragkiadaki
cs.AI

papers.abstract

Die Entwicklung von Robotergeneralisten – instruierbaren Agenten, die in der Lage sind, verschiedene Aufgaben in verschiedenen Umgebungen auszuführen – erfordert rigorose und skalierbare Evaluierungsverfahren. Dennoch ist die Tests von Robotik-Policies in der realen Welt nach wie vor grundlegend eingeschränkt: sie ist arbeitsintensiv, langsam, in großem Maßstab unsicher und schwer zu reproduzieren. Bestehende Simulations-Benchmarks sind ähnlich limitiert, da sie Policies innerhalb derselben synthetischen Domänen trainieren und testen und keine Modelle bewerten können, die auf realen Demonstrationen oder alternativen Simulationsumgebungen trainiert wurden. Mit zunehmendem Umfang und Komplexität der Policies verschärfen sich diese Hindernisse noch weiter, da die Definition von "Erfolg" in der Robotik oft von nuancierten menschlichen Urteilen über die Ausführungsqualität abhängt. In diesem Artikel stellen wir ein neues Benchmarking-Framework vor, das diese Herausforderungen überwindet, indem es die VLA-Evaluierung in groß angelegte simulierte Umgebungen verlagert, die mit Online-Menschliches-Feedback angereichert sind. Unter Ausnutzung von Fortschritten bei Vision-Language-Modellen, generativer 2D-zu-3D-Modellierung und differentiellem Rendering wandelt unser Ansatz automatisch Video-Demonstrationen aus weit verbreiteten Robotik-Datensätzen in simulierte Gegenstücke um. Innerhalb dieser digitalen Zwillinge bewerten wir VLA-Policies sowohl mit automatischer, VLM-gestützter Bewertung als auch mit skalierbaren menschlichen Präferenzurteilen, die von Crowdworkern gesammelt werden. Dadurch wandelt sich die menschliche Beteiligung von mühsamer Szeneneinrichtung, Zurücksetzung und Sicherheitsüberwachung in leichgewichtige Präferenzvergleiche. Um die Robustheit zu messen, stören wir die simulierten Umgebungen systematisch entlang mehrerer Achsen, wie z.B. Texturen und Objektplatzierungen, und testen so die Policy-Generalisation unter kontrollierten Variationen stress. Das Ergebnis ist ein sich kontinuierlich weiterentwickelnder, reproduzierbarer und skalierbarer Benchmark für Policies der Robotermanipulation, die in der realen Welt trainiert wurden, und adressiert damit eine kritische fehlende Fähigkeit im heutigen Robotik-Umfeld.
English
The pursuit of robot generalists - instructable agents capable of performing diverse tasks across diverse environments - demands rigorous and scalable evaluation. Yet real-world testing of robot policies remains fundamentally constrained: it is labor-intensive, slow, unsafe at scale, and difficult to reproduce. Existing simulation benchmarks are similarly limited, as they train and test policies within the same synthetic domains and cannot assess models trained from real-world demonstrations or alternative simulation environments. As policies expand in scope and complexity, these barriers only intensify, since defining "success" in robotics often hinges on nuanced human judgments of execution quality. In this paper, we introduce a new benchmarking framework that overcomes these challenges by shifting VLA evaluation into large-scale simulated environments augmented with online human feedback. Leveraging advances in vision-language models, 2D-to-3D generative modeling, and differentiable rendering, our approach automatically converts video demonstrations from widely used robot datasets into simulated counterparts. Within these digital twins, we assess VLA policies using both automated VLM-guided scoring and scalable human preference judgments collected from crowdworkers, transforming human involvement from tedious scene setup, resetting, and safety supervision into lightweight preference comparisons. To measure robustness, we systematically perturb simulated environments along multiple axes, such as textures and object placements, stress-testing policy generalization under controlled variation. The result is a continuously evolving, reproducible, and scalable benchmark for real-world trained robot manipulation policies, addressing a critical missing capability in today's robotics landscape.
PDF81December 31, 2025