RoboChallenge: Avaliação em Larga Escala de Políticas Corporificadas em Robôs Reais

Resumo

A testagem em máquinas reais é indispensável para algoritmos de controle robótico. No contexto de algoritmos baseados em aprendizagem, especialmente modelos VLA, a demanda por avaliação em larga escala - ou seja, testar um grande número de modelos em uma grande variedade de tarefas - torna-se cada vez mais urgente. No entanto, executar este processo adequadamente é altamente complexo, especialmente quando são considerados a escalabilidade e a reprodutibilidade. Neste relatório, descrevemos nossa metodologia para construir o RoboChallenge, um sistema de avaliação online para testar algoritmos de controle robótico, e nosso levantamento dos modelos VLA state-of-the-art recentes utilizando nossa métrica inicial Table30.

English

Testing on real machines is indispensable for robotic control algorithms. In the context of learning-based algorithms, especially VLA models, demand for large-scale evaluation, i.e. testing a large number of models on a large number of tasks, is becoming increasingly urgent. However, doing this right is highly non-trivial, especially when scalability and reproducibility is taken into account. In this report, we describe our methodology for constructing RoboChallenge, an online evaluation system to test robotic control algorithms, and our survey of recent state-of-the-art VLA models using our initial benchmark Table30.