SimVLA : une ligne de base VLA simple pour la manipulation robotique

Résumé

Les modèles vision-langage-action (VLA) sont apparus comme un paradigme prometteur pour la manipulation robotique universelle, exploitant l'apprentissage préalable à grande échelle pour atteindre des performances élevées. Ce domaine a rapidement évolué avec l'ajout de prérequis spatiaux et diverses innovations architecturales. Cependant, ces avancées s'accompagnent souvent de protocoles d'entraînement et de détails d'implémentation variables, ce qui peut rendre difficile l'identification précise de la source des gains empiriques. Dans ce travail, nous présentons SimVLA, une base de référence rationalisée conçue pour établir un point de repère transparent pour la recherche VLA. En découplant strictement la perception du contrôle, en utilisant une architecture standard vision-langage et une tête d'action légère, et en standardisant les dynamiques d'entraînement critiques, nous démontrons qu'une conception minimale peut atteindre des performances de pointe. Bien que ne comptant que 0,5 milliard de paramètres, SimVLA surpasse des modèles de plusieurs milliards de paramètres sur des benchmarks de simulation standard sans pré-entraînement robotique. SimVLA atteint également des performances équivalentes sur robot réel par rapport à pi0.5. Nos résultats établissent SimVLA comme une base de référence robuste et reproductible qui permet une attribution claire des gains empiriques aux futures innovations architecturales. Site web : https://frontierrobo.github.io/SimVLA

English

Vision-Language-Action (VLA) models have emerged as a promising paradigm for general-purpose robotic manipulation, leveraging large-scale pre-training to achieve strong performance. The field has rapidly evolved with additional spatial priors and diverse architectural innovations. However, these advancements are often accompanied by varying training recipes and implementation details, which can make it challenging to disentangle the precise source of empirical gains. In this work, we introduce SimVLA, a streamlined baseline designed to establish a transparent reference point for VLA research. By strictly decoupling perception from control, using a standard vision-language backbone and a lightweight action head, and standardizing critical training dynamics, we demonstrate that a minimal design can achieve state-of-the-art performance. Despite having only 0.5B parameters, SimVLA outperforms multi-billion-parameter models on standard simulation benchmarks without robot pretraining. SimVLA also reaches on-par real-robot performance compared to pi0.5. Our results establish SimVLA as a robust, reproducible baseline that enables clear attribution of empirical gains to future architectural innovations. Website: https://frontierrobo.github.io/SimVLA

SimVLA : une ligne de base VLA simple pour la manipulation robotique

SimVLA: A Simple VLA Baseline for Robotic Manipulation

Résumé

Support