ChatPaper.aiChatPaper

ロボチャレンジ:具現化ポリシーの大規模実ロボット評価

RoboChallenge: Large-scale Real-robot Evaluation of Embodied Policies

October 20, 2025
著者: Adina Yakefu, Bin Xie, Chongyang Xu, Enwen Zhang, Erjin Zhou, Fan Jia, Haitao Yang, Haoqiang Fan, Haowei Zhang, Hongyang Peng, Jing Tan, Junwen Huang, Kai Liu, Kaixin Liu, Kefan Gu, Qinglun Zhang, Ruitao Zhang, Saike Huang, Shen Cheng, Shuaicheng Liu, Tiancai Wang, Tiezhen Wang, Wei Sun, Wenbin Tang, Yajun Wei, Yang Chen, Youqiang Gui, Yucheng Zhao, Yunchao Ma, Yunfei Wei, Yunhuan Yang, Yutong Guo, Ze Chen, Zhengyuan Du, Ziheng Zhang, Ziming Liu, Ziwei Yan
cs.AI

要旨

ロボット制御アルゴリズムの評価において、実機テストは不可欠である。学習ベースのアルゴリズム、特にVLAモデルの文脈では、大規模評価、すなわち多数のモデルを多数のタスクでテストする必要性がますます高まっている。しかし、特に拡張性と再現性を考慮すると、これを適切に行うことは極めて容易ではない。本報告書では、ロボット制御アルゴリズムをテストするためのオンライン評価システム「RoboChallenge」の構築方法論と、初期ベンチマークTable30を用いた最近の先進的VLAモデルに関する調査結果について述べる。
English
Testing on real machines is indispensable for robotic control algorithms. In the context of learning-based algorithms, especially VLA models, demand for large-scale evaluation, i.e. testing a large number of models on a large number of tasks, is becoming increasingly urgent. However, doing this right is highly non-trivial, especially when scalability and reproducibility is taken into account. In this report, we describe our methodology for constructing RoboChallenge, an online evaluation system to test robotic control algorithms, and our survey of recent state-of-the-art VLA models using our initial benchmark Table30.
PDF72December 2, 2025