ChatPaper.aiChatPaper

RoboChallenge: Крупномасштабная оценка воплощенных стратегий на реальных роботах

RoboChallenge: Large-scale Real-robot Evaluation of Embodied Policies

October 20, 2025
Авторы: Adina Yakefu, Bin Xie, Chongyang Xu, Enwen Zhang, Erjin Zhou, Fan Jia, Haitao Yang, Haoqiang Fan, Haowei Zhang, Hongyang Peng, Jing Tan, Junwen Huang, Kai Liu, Kaixin Liu, Kefan Gu, Qinglun Zhang, Ruitao Zhang, Saike Huang, Shen Cheng, Shuaicheng Liu, Tiancai Wang, Tiezhen Wang, Wei Sun, Wenbin Tang, Yajun Wei, Yang Chen, Youqiang Gui, Yucheng Zhao, Yunchao Ma, Yunfei Wei, Yunhuan Yang, Yutong Guo, Ze Chen, Zhengyuan Du, Ziheng Zhang, Ziming Liu, Ziwei Yan
cs.AI

Аннотация

Тестирование на реальных машинах является незаменимым для алгоритмов управления роботами. В контексте обучающихся алгоритмов, особенно моделей VLA (Vision-Language-Action), потребность в масштабной оценке, то есть тестировании большого количества моделей на множестве задач, становится все более актуальной. Однако грамотная организация такого процесса представляет значительные сложности, особенно при учете требований масштабируемости и воспроизводимости. В данном отчете мы описываем нашу методологию создания RoboChallenge — системы онлайн-оценки для тестирования алгоритмов управления роботами, а также представляем обзор современных передовых моделей VLA с использованием нашего первоначального бенчмарка Table30.
English
Testing on real machines is indispensable for robotic control algorithms. In the context of learning-based algorithms, especially VLA models, demand for large-scale evaluation, i.e. testing a large number of models on a large number of tasks, is becoming increasingly urgent. However, doing this right is highly non-trivial, especially when scalability and reproducibility is taken into account. In this report, we describe our methodology for constructing RoboChallenge, an online evaluation system to test robotic control algorithms, and our survey of recent state-of-the-art VLA models using our initial benchmark Table30.
PDF72December 2, 2025