ChatPaper.aiChatPaper

VLA-0: State-of-the-Art VLA's Bouwen zonder Aanpassingen

VLA-0: Building State-of-the-Art VLAs with Zero Modification

October 15, 2025
Auteurs: Ankit Goyal, Hugo Hadfield, Xuning Yang, Valts Blukis, Fabio Ramos
cs.AI

Samenvatting

Vision-Language-Action-modellen (VLA's) bieden enorme mogelijkheden voor het mogelijk maken van algemene robotmanipulatie. De beste manier om ze te bouwen, blijft echter een open vraag. Huidige benaderingen voegen vaak complexiteit toe, zoals het aanpassen van de bestaande woordenschat van een Vision-Language Model (VLM) met actietokens of het introduceren van speciale actiekoppen. Opmerkelijk genoeg is de eenvoudigste strategie om acties direct als tekst weer te geven grotendeels onontgonnen gebleven. Dit werk introduceert VLA-0 om dit idee te onderzoeken. We ontdekken dat VLA-0 niet alleen effectief is; het is verrassend krachtig. Met het juiste ontwerp presteert VLA-0 beter dan complexere modellen. Op LIBERO, een populaire benchmark voor het evalueren van VLA's, presteert VLA-0 beter dan alle bestaande methoden die op dezelfde robotdata zijn getraind, waaronder pi_0.5-KI, OpenVLA-OFT en SmolVLA. Bovendien presteert het, zonder grootschalige robotica-specifieke training, beter dan methoden die op grootschalige robotdata zijn getraind, zoals pi_0.5-KI, pi_0, GR00T-N1 en MolmoAct. Deze bevindingen vertalen zich ook naar de echte wereld, waar VLA-0 beter presteert dan SmolVLA, een VLA-model dat vooraf is getraind op grootschalige echte data. Dit artikel vat onze onverwachte bevindingen samen en beschrijft de specifieke technieken die nodig zijn om de hoge prestaties van dit eenvoudige maar krachtige VLA-ontwerp te ontgrendelen. Visuele resultaten, code en getrainde modellen zijn hier beschikbaar: https://vla0.github.io/.
English
Vision-Language-Action models (VLAs) hold immense promise for enabling generalist robot manipulation. However, the best way to build them remains an open question. Current approaches often add complexity, such as modifying the existing vocabulary of a Vision-Language Model (VLM) with action tokens or introducing special action heads. Curiously, the simplest strategy of representing actions directly as text has remained largely unexplored. This work introduces VLA-0 to investigate this idea. We find that VLA-0 is not only effective; it is surprisingly powerful. With the right design, VLA-0 outperforms more involved models. On LIBERO, a popular benchmark for evaluating VLAs, VLA-0 outperforms all existing methods trained on the same robotic data, including pi_0.5-KI, OpenVLA-OFT and SmolVLA. Furthermore, without large-scale robotics-specific training, it outperforms methods trained on large-scale robotic data, like pi_0.5-KI, pi_0, GR00T-N1 and MolmoAct. These findings also translate to the real world, where VLA-0 outperforms SmolVLA, a VLA model pre-trained on large-scale real data. This paper summarizes our unexpected findings and spells out the specific techniques required to unlock the high performance of this simple yet potent VLA design. Visual results, code, and trained models are provided here: https://vla0.github.io/.
PDF82October 17, 2025