RobotArena oneindig: Schaalbare robotbenchmarking via real-naar-sim-vertaling
RobotArena infty: Scalable Robot Benchmarking via Real-to-Sim Translation
October 27, 2025
Auteurs: Yash Jangir, Yidi Zhang, Kashu Yamazaki, Chenyu Zhang, Kuan-Hsun Tu, Tsung-Wei Ke, Lei Ke, Yonatan Bisk, Katerina Fragkiadaki
cs.AI
Samenvatting
De zoektocht naar robotgeneralisten – programmeerbare agents die in staat zijn tot uiteenlopende taken in diverse omgevingen – vereist een rigoureuze en schaalbare evaluatie. Toch wordt real-world testen van robotbeleid fundamenteel beperkt door praktische beperkingen: het is arbeidsintensief, traag, onveilig op grote schaal en moeilijk te reproduceren. Bestaande simulatiebenchmarks kampen met vergelijkbare beperkingen, omdat ze beleid trainen en testen binnen dezelfde synthetische domeinen en geen modellen kunnen beoordelen die zijn getraind op real-world demonstraties of alternatieve simulatieomgevingen. Naarmate het beleid in omvang en complexiteit toeneemt, worden deze barrières alleen maar groter, aangezien "succes" in de robotica vaak afhangt van genuanceerde menselijke beoordelingen van uitvoeringskwaliteit. In dit artikel introduceren we een nieuw benchmarkkader dat deze uitdagingen overwint door de evaluatie van VLA's te verplaatsen naar grootschalige gesimuleerde omgevingen, versterkt met online menselijke feedback. Door gebruik te maken van vooruitgang in vision-language modellen, generatieve 2D-naar-3D-modellering en differentieerbaar renderen, zet onze aanpak videodemonstraties uit veelgebruikte robotdatasets automatisch om in gesimuleerde tegenhangers. Binnen deze digitale tweelingen beoordelen we VLA-beleid met zowel geautomatiseerde, door VLM-gestuurde scoring als schaalbare beoordelingen van menselijke voorkeuren, verzameld via crowdworkers. Hierdoor verandert menselijke betrokkenheid van vervelende scène-opbouw, resetten en veiligheidstoezicht in lichte voorkeursvergelijkingen. Om robuustheid te meten, verstoren we gesimuleerde omgevingen systematisch langs meerdere assen, zoals texturen en objectplaatsingen, om de generalisatie van beleid onder gecontroleerde variatie stresstesten. Het resultaat is een continu evoluerende, reproduceerbare en schaalbare benchmark voor in de real-world getraind robotmanipulatiebeleid, die een cruciaal ontbrekend vermogen in het huidige roboticalandschap adresseert.
English
The pursuit of robot generalists - instructable agents capable of performing
diverse tasks across diverse environments - demands rigorous and scalable
evaluation. Yet real-world testing of robot policies remains fundamentally
constrained: it is labor-intensive, slow, unsafe at scale, and difficult to
reproduce. Existing simulation benchmarks are similarly limited, as they train
and test policies within the same synthetic domains and cannot assess models
trained from real-world demonstrations or alternative simulation environments.
As policies expand in scope and complexity, these barriers only intensify,
since defining "success" in robotics often hinges on nuanced human judgments of
execution quality. In this paper, we introduce a new benchmarking framework
that overcomes these challenges by shifting VLA evaluation into large-scale
simulated environments augmented with online human feedback. Leveraging
advances in vision-language models, 2D-to-3D generative modeling, and
differentiable rendering, our approach automatically converts video
demonstrations from widely used robot datasets into simulated counterparts.
Within these digital twins, we assess VLA policies using both automated
VLM-guided scoring and scalable human preference judgments collected from
crowdworkers, transforming human involvement from tedious scene setup,
resetting, and safety supervision into lightweight preference comparisons. To
measure robustness, we systematically perturb simulated environments along
multiple axes, such as textures and object placements, stress-testing policy
generalization under controlled variation. The result is a continuously
evolving, reproducible, and scalable benchmark for real-world trained robot
manipulation policies, addressing a critical missing capability in today's
robotics landscape.