ChatPaper.aiChatPaper

SmolVLA: Een Vision-Taal-Actie Model voor Betaalbare en Efficiënte Robotica

SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics

June 2, 2025
Auteurs: Mustafa Shukor, Dana Aubakirova, Francesco Capuano, Pepijn Kooijmans, Steven Palma, Adil Zouitine, Michel Aractingi, Caroline Pascal, Martino Russi, Andres Marafioti, Simon Alibert, Matthieu Cord, Thomas Wolf, Remi Cadene
cs.AI

Samenvatting

Vision-language models (VLMs) die vooraf zijn getraind op grootschalige multimodale datasets, bevatten rijke visuele en linguïstische kennis, waardoor ze een sterke basis vormen voor robotica. In plaats van robotbeleid vanaf nul te trainen, passen recente benaderingen VLMs aan tot vision-language-action (VLA) modellen die natuurlijke taalgestuurde perceptie en controle mogelijk maken. Bestaande VLA's zijn echter doorgaans enorm—vaak met miljarden parameters—wat leidt tot hoge trainingskosten en beperkte inzetbaarheid in de praktijk. Bovendien vertrouwen ze op academische en industriële datasets, waarbij de groeiende beschikbaarheid van door de gemeenschap verzamelde data van betaalbare robotplatformen over het hoofd wordt gezien. In dit werk presenteren we SmolVLA, een klein, efficiënt en gemeenschapsgedreven VLA dat zowel de trainings- als de inferentiekosten drastisch verlaagt, terwijl het competitieve prestaties behoudt. SmolVLA is ontworpen om op een enkele GPU getraind te worden en ingezet te worden op consumenten-GPU's of zelfs CPU's. Om de responsiviteit verder te verbeteren, introduceren we een asynchrone inferentiestack die perceptie en actievoorspelling ontkoppelt van actie-uitvoering, waardoor hogere controlefrequenties mogelijk zijn met gefragmenteerde actiegeneratie. Ondanks zijn compacte formaat bereikt SmolVLA prestaties die vergelijkbaar zijn met VLA's die 10x groter zijn. We evalueren SmolVLA op een reeks gesimuleerde en real-world robotbenchmarks en geven alle code, vooraf getrainde modellen en trainingsdata vrij.
English
Vision-language models (VLMs) pretrained on large-scale multimodal datasets encode rich visual and linguistic knowledge, making them a strong foundation for robotics. Rather than training robotic policies from scratch, recent approaches adapt VLMs into vision-language-action (VLA) models that enable natural language-driven perception and control. However, existing VLAs are typically massive--often with billions of parameters--leading to high training costs and limited real-world deployability. Moreover, they rely on academic and industrial datasets, overlooking the growing availability of community-collected data from affordable robotic platforms. In this work, we present SmolVLA, a small, efficient, and community-driven VLA that drastically reduces both training and inference costs, while retaining competitive performance. SmolVLA is designed to be trained on a single GPU and deployed on consumer-grade GPUs or even CPUs. To further improve responsiveness, we introduce an asynchronous inference stack decoupling perception and action prediction from action execution, allowing higher control rates with chunked action generation. Despite its compact size, SmolVLA achieves performance comparable to VLAs that are 10x larger. We evaluate SmolVLA on a range of both simulated as well as real-world robotic benchmarks and release all code, pretrained models, and training data.
PDF9516June 3, 2025