SmolVLA : Un modèle vision-langage-action pour une robotique abordable et efficace
SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics
June 2, 2025
Auteurs: Mustafa Shukor, Dana Aubakirova, Francesco Capuano, Pepijn Kooijmans, Steven Palma, Adil Zouitine, Michel Aractingi, Caroline Pascal, Martino Russi, Andres Marafioti, Simon Alibert, Matthieu Cord, Thomas Wolf, Remi Cadene
cs.AI
Résumé
Les modèles vision-langage (VLMs) pré-entraînés sur des ensembles de données multimodales à grande échelle encodent des connaissances visuelles et linguistiques riches, ce qui en fait une base solide pour la robotique. Plutôt que d'entraîner des politiques robotiques à partir de zéro, les approches récentes adaptent les VLMs en modèles vision-langage-action (VLA) qui permettent une perception et un contrôle pilotés par le langage naturel. Cependant, les VLA existants sont généralement massifs—souvent avec des milliards de paramètres—entraînant des coûts d'entraînement élevés et une déployabilité limitée dans le monde réel. De plus, ils s'appuient sur des ensembles de données académiques et industriels, négligeant la disponibilité croissante de données collectées par la communauté à partir de plateformes robotiques abordables. Dans ce travail, nous présentons SmolVLA, un VLA petit, efficace et piloté par la communauté, qui réduit considérablement les coûts d'entraînement et d'inférence tout en conservant des performances compétitives. SmolVLA est conçu pour être entraîné sur un seul GPU et déployé sur des GPU grand public ou même des CPU. Pour améliorer davantage la réactivité, nous introduisons une pile d'inférence asynchrone découplant la perception et la prédiction d'action de l'exécution d'action, permettant des taux de contrôle plus élevés avec une génération d'action par morceaux. Malgré sa taille compacte, SmolVLA atteint des performances comparables à des VLA 10 fois plus grands. Nous évaluons SmolVLA sur une gamme de benchmarks robotiques simulés et réels, et publions tout le code, les modèles pré-entraînés et les données d'entraînement.
English
Vision-language models (VLMs) pretrained on large-scale multimodal datasets
encode rich visual and linguistic knowledge, making them a strong foundation
for robotics. Rather than training robotic policies from scratch, recent
approaches adapt VLMs into vision-language-action (VLA) models that enable
natural language-driven perception and control. However, existing VLAs are
typically massive--often with billions of parameters--leading to high training
costs and limited real-world deployability. Moreover, they rely on academic and
industrial datasets, overlooking the growing availability of
community-collected data from affordable robotic platforms. In this work, we
present SmolVLA, a small, efficient, and community-driven VLA that drastically
reduces both training and inference costs, while retaining competitive
performance. SmolVLA is designed to be trained on a single GPU and deployed on
consumer-grade GPUs or even CPUs. To further improve responsiveness, we
introduce an asynchronous inference stack decoupling perception and action
prediction from action execution, allowing higher control rates with chunked
action generation. Despite its compact size, SmolVLA achieves performance
comparable to VLAs that are 10x larger. We evaluate SmolVLA on a range of both
simulated as well as real-world robotic benchmarks and release all code,
pretrained models, and training data.