ChatPaper.aiChatPaper

SmolVLA: Um Modelo Visão-Linguagem-Ação para Robótica Acessível e Eficiente

SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics

June 2, 2025
Autores: Mustafa Shukor, Dana Aubakirova, Francesco Capuano, Pepijn Kooijmans, Steven Palma, Adil Zouitine, Michel Aractingi, Caroline Pascal, Martino Russi, Andres Marafioti, Simon Alibert, Matthieu Cord, Thomas Wolf, Remi Cadene
cs.AI

Resumo

Modelos visão-linguagem (VLMs) pré-treinados em grandes conjuntos de dados multimodais codificam conhecimento visual e linguístico rico, tornando-os uma base sólida para a robótica. Em vez de treinar políticas robóticas do zero, abordagens recentes adaptam VLMs em modelos visão-linguagem-ação (VLAs) que permitem percepção e controle orientados por linguagem natural. No entanto, os VLAs existentes são tipicamente massivos—frequentemente com bilhões de parâmetros—resultando em altos custos de treinamento e limitada capacidade de implantação no mundo real. Além disso, eles dependem de conjuntos de dados acadêmicos e industriais, ignorando a crescente disponibilidade de dados coletados pela comunidade a partir de plataformas robóticas acessíveis. Neste trabalho, apresentamos o SmolVLA, um VLA pequeno, eficiente e orientado pela comunidade que reduz drasticamente tanto os custos de treinamento quanto de inferência, mantendo um desempenho competitivo. O SmolVLA foi projetado para ser treinado em uma única GPU e implantado em GPUs de nível consumidor ou até mesmo CPUs. Para melhorar ainda mais a responsividade, introduzimos uma pilha de inferência assíncrona que desacopla a percepção e a previsão de ações da execução de ações, permitindo taxas de controle mais altas com geração de ações em blocos. Apesar de seu tamanho compacto, o SmolVLA alcança um desempenho comparável a VLAs que são 10 vezes maiores. Avaliamos o SmolVLA em uma variedade de benchmarks robóticos simulados e do mundo real e disponibilizamos todo o código, modelos pré-treinados e dados de treinamento.
English
Vision-language models (VLMs) pretrained on large-scale multimodal datasets encode rich visual and linguistic knowledge, making them a strong foundation for robotics. Rather than training robotic policies from scratch, recent approaches adapt VLMs into vision-language-action (VLA) models that enable natural language-driven perception and control. However, existing VLAs are typically massive--often with billions of parameters--leading to high training costs and limited real-world deployability. Moreover, they rely on academic and industrial datasets, overlooking the growing availability of community-collected data from affordable robotic platforms. In this work, we present SmolVLA, a small, efficient, and community-driven VLA that drastically reduces both training and inference costs, while retaining competitive performance. SmolVLA is designed to be trained on a single GPU and deployed on consumer-grade GPUs or even CPUs. To further improve responsiveness, we introduce an asynchronous inference stack decoupling perception and action prediction from action execution, allowing higher control rates with chunked action generation. Despite its compact size, SmolVLA achieves performance comparable to VLAs that are 10x larger. We evaluate SmolVLA on a range of both simulated as well as real-world robotic benchmarks and release all code, pretrained models, and training data.
PDF9416June 3, 2025