ChatPaper.aiChatPaper

RobotArena oneindig: Schaalbare robotbenchmarking via real-naar-sim-vertaling

RobotArena infty: Scalable Robot Benchmarking via Real-to-Sim Translation

October 27, 2025
Auteurs: Yash Jangir, Yidi Zhang, Kashu Yamazaki, Chenyu Zhang, Kuan-Hsun Tu, Tsung-Wei Ke, Lei Ke, Yonatan Bisk, Katerina Fragkiadaki
cs.AI

Samenvatting

De zoektocht naar robotgeneralisten – programmeerbare agents die in staat zijn tot uiteenlopende taken in diverse omgevingen – vereist een rigoureuze en schaalbare evaluatie. Toch wordt real-world testen van robotbeleid fundamenteel beperkt door praktische beperkingen: het is arbeidsintensief, traag, onveilig op grote schaal en moeilijk te reproduceren. Bestaande simulatiebenchmarks kampen met vergelijkbare beperkingen, omdat ze beleid trainen en testen binnen dezelfde synthetische domeinen en geen modellen kunnen beoordelen die zijn getraind op real-world demonstraties of alternatieve simulatieomgevingen. Naarmate het beleid in omvang en complexiteit toeneemt, worden deze barrières alleen maar groter, aangezien "succes" in de robotica vaak afhangt van genuanceerde menselijke beoordelingen van uitvoeringskwaliteit. In dit artikel introduceren we een nieuw benchmarkkader dat deze uitdagingen overwint door de evaluatie van VLA's te verplaatsen naar grootschalige gesimuleerde omgevingen, versterkt met online menselijke feedback. Door gebruik te maken van vooruitgang in vision-language modellen, generatieve 2D-naar-3D-modellering en differentieerbaar renderen, zet onze aanpak videodemonstraties uit veelgebruikte robotdatasets automatisch om in gesimuleerde tegenhangers. Binnen deze digitale tweelingen beoordelen we VLA-beleid met zowel geautomatiseerde, door VLM-gestuurde scoring als schaalbare beoordelingen van menselijke voorkeuren, verzameld via crowdworkers. Hierdoor verandert menselijke betrokkenheid van vervelende scène-opbouw, resetten en veiligheidstoezicht in lichte voorkeursvergelijkingen. Om robuustheid te meten, verstoren we gesimuleerde omgevingen systematisch langs meerdere assen, zoals texturen en objectplaatsingen, om de generalisatie van beleid onder gecontroleerde variatie stresstesten. Het resultaat is een continu evoluerende, reproduceerbare en schaalbare benchmark voor in de real-world getraind robotmanipulatiebeleid, die een cruciaal ontbrekend vermogen in het huidige roboticalandschap adresseert.
English
The pursuit of robot generalists - instructable agents capable of performing diverse tasks across diverse environments - demands rigorous and scalable evaluation. Yet real-world testing of robot policies remains fundamentally constrained: it is labor-intensive, slow, unsafe at scale, and difficult to reproduce. Existing simulation benchmarks are similarly limited, as they train and test policies within the same synthetic domains and cannot assess models trained from real-world demonstrations or alternative simulation environments. As policies expand in scope and complexity, these barriers only intensify, since defining "success" in robotics often hinges on nuanced human judgments of execution quality. In this paper, we introduce a new benchmarking framework that overcomes these challenges by shifting VLA evaluation into large-scale simulated environments augmented with online human feedback. Leveraging advances in vision-language models, 2D-to-3D generative modeling, and differentiable rendering, our approach automatically converts video demonstrations from widely used robot datasets into simulated counterparts. Within these digital twins, we assess VLA policies using both automated VLM-guided scoring and scalable human preference judgments collected from crowdworkers, transforming human involvement from tedious scene setup, resetting, and safety supervision into lightweight preference comparisons. To measure robustness, we systematically perturb simulated environments along multiple axes, such as textures and object placements, stress-testing policy generalization under controlled variation. The result is a continuously evolving, reproducible, and scalable benchmark for real-world trained robot manipulation policies, addressing a critical missing capability in today's robotics landscape.
PDF81December 31, 2025