SmolVLA: Un modelo visión-lenguaje-acción para robótica asequible y eficiente
SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics
June 2, 2025
Autores: Mustafa Shukor, Dana Aubakirova, Francesco Capuano, Pepijn Kooijmans, Steven Palma, Adil Zouitine, Michel Aractingi, Caroline Pascal, Martino Russi, Andres Marafioti, Simon Alibert, Matthieu Cord, Thomas Wolf, Remi Cadene
cs.AI
Resumen
Los modelos de visión-lenguaje (VLMs) preentrenados en conjuntos de datos multimodales a gran escala codifican un conocimiento visual y lingüístico rico, lo que los convierte en una base sólida para la robótica. En lugar de entrenar políticas robóticas desde cero, enfoques recientes adaptan los VLMs en modelos de visión-lenguaje-acción (VLA) que permiten la percepción y el control impulsados por lenguaje natural. Sin embargo, los VLA existentes suelen ser masivos—a menudo con miles de millones de parámetros—lo que conlleva altos costos de entrenamiento y una capacidad limitada de implementación en el mundo real. Además, dependen de conjuntos de datos académicos e industriales, pasando por alto la creciente disponibilidad de datos recopilados por la comunidad a partir de plataformas robóticas asequibles. En este trabajo, presentamos SmolVLA, un VLA pequeño, eficiente y orientado a la comunidad que reduce drásticamente tanto los costos de entrenamiento como de inferencia, manteniendo un rendimiento competitivo. SmolVLA está diseñado para ser entrenado en una sola GPU y desplegado en GPUs de consumo e incluso CPUs. Para mejorar aún más la capacidad de respuesta, introducimos una pila de inferencia asíncrona que desacopla la percepción y la predicción de acciones de la ejecución de acciones, permitiendo tasas de control más altas con generación de acciones en fragmentos. A pesar de su tamaño compacto, SmolVLA logra un rendimiento comparable a VLA que son 10 veces más grandes. Evaluamos SmolVLA en una variedad de benchmarks robóticos tanto simulados como del mundo real, y publicamos todo el código, modelos preentrenados y datos de entrenamiento.
English
Vision-language models (VLMs) pretrained on large-scale multimodal datasets
encode rich visual and linguistic knowledge, making them a strong foundation
for robotics. Rather than training robotic policies from scratch, recent
approaches adapt VLMs into vision-language-action (VLA) models that enable
natural language-driven perception and control. However, existing VLAs are
typically massive--often with billions of parameters--leading to high training
costs and limited real-world deployability. Moreover, they rely on academic and
industrial datasets, overlooking the growing availability of
community-collected data from affordable robotic platforms. In this work, we
present SmolVLA, a small, efficient, and community-driven VLA that drastically
reduces both training and inference costs, while retaining competitive
performance. SmolVLA is designed to be trained on a single GPU and deployed on
consumer-grade GPUs or even CPUs. To further improve responsiveness, we
introduce an asynchronous inference stack decoupling perception and action
prediction from action execution, allowing higher control rates with chunked
action generation. Despite its compact size, SmolVLA achieves performance
comparable to VLAs that are 10x larger. We evaluate SmolVLA on a range of both
simulated as well as real-world robotic benchmarks and release all code,
pretrained models, and training data.