SmolVLA: Un Modello Visione-Linguaggio-Azione per la Robotica Economica ed Efficiente
SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics
June 2, 2025
Autori: Mustafa Shukor, Dana Aubakirova, Francesco Capuano, Pepijn Kooijmans, Steven Palma, Adil Zouitine, Michel Aractingi, Caroline Pascal, Martino Russi, Andres Marafioti, Simon Alibert, Matthieu Cord, Thomas Wolf, Remi Cadene
cs.AI
Abstract
I modelli visione-linguaggio (VLMs) pre-addestrati su vasti dataset multimodali codificano una ricca conoscenza visiva e linguistica, rendendoli una solida base per la robotica. Piuttosto che addestrare politiche robotiche da zero, approcci recenti adattano i VLMs in modelli visione-linguaggio-azione (VLA) che abilitano la percezione e il controllo guidati dal linguaggio naturale. Tuttavia, gli attuali VLA sono tipicamente massicci—spesso con miliardi di parametri—portando a costi di addestramento elevati e una limitata possibilità di implementazione nel mondo reale. Inoltre, si basano su dataset accademici e industriali, trascurando la crescente disponibilità di dati raccolti dalla comunità provenienti da piattaforme robotiche economiche. In questo lavoro, presentiamo SmolVLA, un VLA piccolo, efficiente e guidato dalla comunità che riduce drasticamente sia i costi di addestramento che di inferenza, mantenendo prestazioni competitive. SmolVLA è progettato per essere addestrato su una singola GPU e implementato su GPU di livello consumer o persino CPU. Per migliorare ulteriormente la reattività, introduciamo uno stack di inferenza asincrono che disaccoppia la percezione e la previsione delle azioni dall'esecuzione delle azioni, consentendo tassi di controllo più elevati con la generazione di azioni in blocchi. Nonostante le sue dimensioni compatte, SmolVLA raggiunge prestazioni paragonabili a VLA 10 volte più grandi. Valutiamo SmolVLA su una gamma di benchmark robotici sia simulati che reali e rilasciamo tutto il codice, i modelli pre-addestrati e i dati di addestramento.
English
Vision-language models (VLMs) pretrained on large-scale multimodal datasets
encode rich visual and linguistic knowledge, making them a strong foundation
for robotics. Rather than training robotic policies from scratch, recent
approaches adapt VLMs into vision-language-action (VLA) models that enable
natural language-driven perception and control. However, existing VLAs are
typically massive--often with billions of parameters--leading to high training
costs and limited real-world deployability. Moreover, they rely on academic and
industrial datasets, overlooking the growing availability of
community-collected data from affordable robotic platforms. In this work, we
present SmolVLA, a small, efficient, and community-driven VLA that drastically
reduces both training and inference costs, while retaining competitive
performance. SmolVLA is designed to be trained on a single GPU and deployed on
consumer-grade GPUs or even CPUs. To further improve responsiveness, we
introduce an asynchronous inference stack decoupling perception and action
prediction from action execution, allowing higher control rates with chunked
action generation. Despite its compact size, SmolVLA achieves performance
comparable to VLAs that are 10x larger. We evaluate SmolVLA on a range of both
simulated as well as real-world robotic benchmarks and release all code,
pretrained models, and training data.