SmolVLA: Модель "Видение-Язык-Действие" для доступной и эффективной робототехники
SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics
June 2, 2025
Авторы: Mustafa Shukor, Dana Aubakirova, Francesco Capuano, Pepijn Kooijmans, Steven Palma, Adil Zouitine, Michel Aractingi, Caroline Pascal, Martino Russi, Andres Marafioti, Simon Alibert, Matthieu Cord, Thomas Wolf, Remi Cadene
cs.AI
Аннотация
Модели, объединяющие зрение и язык (Vision-Language Models, VLMs), предобученные на крупномасштабных мультимодальных наборах данных, кодируют богатые визуальные и лингвистические знания, что делает их мощной основой для робототехники. Вместо обучения роботизированных политик с нуля современные подходы адаптируют VLMs в модели, объединяющие зрение, язык и действие (Vision-Language-Action, VLA), которые обеспечивают восприятие и управление на основе естественного языка. Однако существующие VLA-модели, как правило, обладают огромными размерами — часто с миллиардами параметров — что приводит к высоким затратам на обучение и ограниченной применимости в реальных условиях. Кроме того, они полагаются на академические и промышленные наборы данных, игнорируя растущую доступность данных, собранных сообществом с использованием доступных роботизированных платформ. В данной работе мы представляем SmolVLA — компактную, эффективную и ориентированную на сообщество VLA-модель, которая значительно снижает затраты как на обучение, так и на выполнение, сохраняя при этом конкурентоспособную производительность. SmolVLA разработана для обучения на одном графическом процессоре (GPU) и развертывания на потребительских GPU или даже CPU. Для дальнейшего повышения отзывчивости мы внедряем асинхронный стек выполнения, разделяющий прогнозирование восприятия и действий от их выполнения, что позволяет достичь более высокой частоты управления за счет генерации действий порциями. Несмотря на компактный размер, SmolVLA демонстрирует производительность, сопоставимую с VLA-моделями, которые в 10 раз больше. Мы оцениваем SmolVLA на ряде симулированных и реальных роботизированных тестов и публикуем весь код, предобученные модели и данные для обучения.
English
Vision-language models (VLMs) pretrained on large-scale multimodal datasets
encode rich visual and linguistic knowledge, making them a strong foundation
for robotics. Rather than training robotic policies from scratch, recent
approaches adapt VLMs into vision-language-action (VLA) models that enable
natural language-driven perception and control. However, existing VLAs are
typically massive--often with billions of parameters--leading to high training
costs and limited real-world deployability. Moreover, they rely on academic and
industrial datasets, overlooking the growing availability of
community-collected data from affordable robotic platforms. In this work, we
present SmolVLA, a small, efficient, and community-driven VLA that drastically
reduces both training and inference costs, while retaining competitive
performance. SmolVLA is designed to be trained on a single GPU and deployed on
consumer-grade GPUs or even CPUs. To further improve responsiveness, we
introduce an asynchronous inference stack decoupling perception and action
prediction from action execution, allowing higher control rates with chunked
action generation. Despite its compact size, SmolVLA achieves performance
comparable to VLAs that are 10x larger. We evaluate SmolVLA on a range of both
simulated as well as real-world robotic benchmarks and release all code,
pretrained models, and training data.