RoboChallenge: grootschalige evaluatie van belichaamd beleid met echte robots
RoboChallenge: Large-scale Real-robot Evaluation of Embodied Policies
October 20, 2025
Auteurs: Adina Yakefu, Bin Xie, Chongyang Xu, Enwen Zhang, Erjin Zhou, Fan Jia, Haitao Yang, Haoqiang Fan, Haowei Zhang, Hongyang Peng, Jing Tan, Junwen Huang, Kai Liu, Kaixin Liu, Kefan Gu, Qinglun Zhang, Ruitao Zhang, Saike Huang, Shen Cheng, Shuaicheng Liu, Tiancai Wang, Tiezhen Wang, Wei Sun, Wenbin Tang, Yajun Wei, Yang Chen, Youqiang Gui, Yucheng Zhao, Yunchao Ma, Yunfei Wei, Yunhuan Yang, Yutong Guo, Ze Chen, Zhengyuan Du, Ziheng Zhang, Ziming Liu, Ziwei Yan
cs.AI
Samenvatting
Testen op echte machines is onmisbaar voor robotbesturingsalgoritmen. In de context van op leren gebaseerde algoritmen, met name VLA-modellen, wordt de vraag naar grootschalige evaluatie - het testen van een groot aantal modellen op een groot aantal taken - steeds urgenter. Dit correct uitvoeren is echter zeer niet-triviaal, vooral wanneer schaalbaarheid en reproduceerbaarheid in aanmerking worden genomen. In dit rapport beschrijven we onze methodologie voor het opzetten van RoboChallenge, een online evaluatiesysteem om robotbesturingsalgoritmen te testen, en onze evaluatie van recente state-of-the-art VLA-modellen met behulp van onze initiële benchmark Table30.
English
Testing on real machines is indispensable for robotic control algorithms. In
the context of learning-based algorithms, especially VLA models, demand for
large-scale evaluation, i.e. testing a large number of models on a large number
of tasks, is becoming increasingly urgent. However, doing this right is highly
non-trivial, especially when scalability and reproducibility is taken into
account. In this report, we describe our methodology for constructing
RoboChallenge, an online evaluation system to test robotic control algorithms,
and our survey of recent state-of-the-art VLA models using our initial
benchmark Table30.