ChatPaper.aiChatPaper

RobotArena infty: 実世界からシミュレーションへの変換によるスケーラブルなロボットベンチマーキング

RobotArena infty: Scalable Robot Benchmarking via Real-to-Sim Translation

October 27, 2025
著者: Yash Jangir, Yidi Zhang, Kashu Yamazaki, Chenyu Zhang, Kuan-Hsun Tu, Tsung-Wei Ke, Lei Ke, Yonatan Bisk, Katerina Fragkiadaki
cs.AI

要旨

ロボット汎用化 - 多様な環境下で多様なタスクを実行可能な指示駆動型エージェントの実現 - には、厳密かつスケーラブルな評価体系が不可欠である。しかし現実世界でのロボットポリシー評価は根本的な制約に直面している:人的コストが高く、速度が遅く、大規模実施時の安全性に難があり、再現性が低い。既存のシミュレーション評価環境も同様の限界があり、同一の合成領域内でポリシーの学習と評価を行うため、実世界実証データや異種シミュレーション環境で学習されたモデルを評価できない。ポリシーの対象範囲と複雑性が拡大するにつれ、ロボット工学における「成功」の定義が実行品質に対する微妙な人間の判断に依存する性質上、これらの障壁は一層深刻化する。本論文では、VLA評価を大規模シミュレーション環境に移行し、オンライン人間フィードバックで強化する新たなベンチマーク手法を提案する。視覚言語モデル、2D-3D生成モデリング、微分可能レンダリングの進展を活用し、広く利用されているロボットデータセットの映像実証を自動的にシミュレーション空間へ変換する。これらのデジタルツイン内では、自動化されたVLM誘導型評価とクラウドワーカーから収集したスケーラブルな人間の選好判断を併用し、人間の関与を煩雑なシーン設定・リセット・安全監視から軽量な選好比較へ転換する。頑健性測定のため、テクスチャや物体配置等多軸に沿ってシミュレーション環境を体系的に擾乱し、制御変動下でのポリシー一般化性能をストレステストする。これにより、現実世界で学習されたロボット操作ポリシーのための、継続的進化・再現可能・スケーラブルなベンチマークを実現し、現代ロボット工学が抱える重大な機能欠陥を解消する。
English
The pursuit of robot generalists - instructable agents capable of performing diverse tasks across diverse environments - demands rigorous and scalable evaluation. Yet real-world testing of robot policies remains fundamentally constrained: it is labor-intensive, slow, unsafe at scale, and difficult to reproduce. Existing simulation benchmarks are similarly limited, as they train and test policies within the same synthetic domains and cannot assess models trained from real-world demonstrations or alternative simulation environments. As policies expand in scope and complexity, these barriers only intensify, since defining "success" in robotics often hinges on nuanced human judgments of execution quality. In this paper, we introduce a new benchmarking framework that overcomes these challenges by shifting VLA evaluation into large-scale simulated environments augmented with online human feedback. Leveraging advances in vision-language models, 2D-to-3D generative modeling, and differentiable rendering, our approach automatically converts video demonstrations from widely used robot datasets into simulated counterparts. Within these digital twins, we assess VLA policies using both automated VLM-guided scoring and scalable human preference judgments collected from crowdworkers, transforming human involvement from tedious scene setup, resetting, and safety supervision into lightweight preference comparisons. To measure robustness, we systematically perturb simulated environments along multiple axes, such as textures and object placements, stress-testing policy generalization under controlled variation. The result is a continuously evolving, reproducible, and scalable benchmark for real-world trained robot manipulation policies, addressing a critical missing capability in today's robotics landscape.
PDF81December 31, 2025