ChatPaper.aiChatPaper

RoboChallenge: Evaluación a Gran Escala de Políticas de IA Corporizada en Robots Reales

RoboChallenge: Large-scale Real-robot Evaluation of Embodied Policies

October 20, 2025
Autores: Adina Yakefu, Bin Xie, Chongyang Xu, Enwen Zhang, Erjin Zhou, Fan Jia, Haitao Yang, Haoqiang Fan, Haowei Zhang, Hongyang Peng, Jing Tan, Junwen Huang, Kai Liu, Kaixin Liu, Kefan Gu, Qinglun Zhang, Ruitao Zhang, Saike Huang, Shen Cheng, Shuaicheng Liu, Tiancai Wang, Tiezhen Wang, Wei Sun, Wenbin Tang, Yajun Wei, Yang Chen, Youqiang Gui, Yucheng Zhao, Yunchao Ma, Yunfei Wei, Yunhuan Yang, Yutong Guo, Ze Chen, Zhengyuan Du, Ziheng Zhang, Ziming Liu, Ziwei Yan
cs.AI

Resumen

Las pruebas en máquinas reales son indispensables para los algoritmos de control robótico. En el contexto de los algoritmos basados en aprendizaje, especialmente los modelos VLA, la demanda de evaluaciones a gran escala, es decir, probar una gran cantidad de modelos en una gran cantidad de tareas, se está volviendo cada vez más urgente. Sin embargo, hacerlo correctamente es altamente complejo, especialmente cuando se considera la escalabilidad y la reproducibilidad. En este informe, describimos nuestra metodología para construir RoboChallenge, un sistema de evaluación en línea para probar algoritmos de control robótico, y nuestro estudio de los modelos VLA más recientes y avanzados utilizando nuestro punto de referencia inicial Table30.
English
Testing on real machines is indispensable for robotic control algorithms. In the context of learning-based algorithms, especially VLA models, demand for large-scale evaluation, i.e. testing a large number of models on a large number of tasks, is becoming increasingly urgent. However, doing this right is highly non-trivial, especially when scalability and reproducibility is taken into account. In this report, we describe our methodology for constructing RoboChallenge, an online evaluation system to test robotic control algorithms, and our survey of recent state-of-the-art VLA models using our initial benchmark Table30.
PDF72December 2, 2025