ChatPaper.aiChatPaper

VLA-0: Construcción de VLAs de última generación sin modificaciones

VLA-0: Building State-of-the-Art VLAs with Zero Modification

October 15, 2025
Autores: Ankit Goyal, Hugo Hadfield, Xuning Yang, Valts Blukis, Fabio Ramos
cs.AI

Resumen

Los modelos Visión-Lenguaje-Acción (VLAs) ofrecen un gran potencial para habilitar la manipulación robótica generalista. Sin embargo, la mejor manera de construirlos sigue siendo una pregunta abierta. Los enfoques actuales suelen añadir complejidad, como modificar el vocabulario existente de un Modelo Visión-Lenguaje (VLM) con tokens de acción o introducir cabezales especiales para acciones. Curiosamente, la estrategia más simple de representar las acciones directamente como texto ha permanecido en gran medida inexplorada. Este trabajo presenta VLA-0 para investigar esta idea. Descubrimos que VLA-0 no solo es efectivo; es sorprendentemente potente. Con el diseño adecuado, VLA-0 supera a modelos más complejos. En LIBERO, un punto de referencia popular para evaluar VLAs, VLA-0 supera a todos los métodos existentes entrenados con los mismos datos robóticos, incluyendo pi_0.5-KI, OpenVLA-OFT y SmolVLA. Además, sin entrenamiento a gran escala específico para robótica, supera a métodos entrenados con datos robóticos a gran escala, como pi_0.5-KI, pi_0, GR00T-N1 y MolmoAct. Estos hallazgos también se trasladan al mundo real, donde VLA-0 supera a SmolVLA, un modelo VLA preentrenado con datos reales a gran escala. Este artículo resume nuestros hallazgos inesperados y detalla las técnicas específicas necesarias para desbloquear el alto rendimiento de este diseño VLA simple pero potente. Los resultados visuales, el código y los modelos entrenados se proporcionan aquí: https://vla0.github.io/.
English
Vision-Language-Action models (VLAs) hold immense promise for enabling generalist robot manipulation. However, the best way to build them remains an open question. Current approaches often add complexity, such as modifying the existing vocabulary of a Vision-Language Model (VLM) with action tokens or introducing special action heads. Curiously, the simplest strategy of representing actions directly as text has remained largely unexplored. This work introduces VLA-0 to investigate this idea. We find that VLA-0 is not only effective; it is surprisingly powerful. With the right design, VLA-0 outperforms more involved models. On LIBERO, a popular benchmark for evaluating VLAs, VLA-0 outperforms all existing methods trained on the same robotic data, including pi_0.5-KI, OpenVLA-OFT and SmolVLA. Furthermore, without large-scale robotics-specific training, it outperforms methods trained on large-scale robotic data, like pi_0.5-KI, pi_0, GR00T-N1 and MolmoAct. These findings also translate to the real world, where VLA-0 outperforms SmolVLA, a VLA model pre-trained on large-scale real data. This paper summarizes our unexpected findings and spells out the specific techniques required to unlock the high performance of this simple yet potent VLA design. Visual results, code, and trained models are provided here: https://vla0.github.io/.
PDF82October 17, 2025