SmolVLA: Модель "Видение-Язык-Действие" для доступной и эффективной робототехники

Аннотация

Модели, объединяющие зрение и язык (Vision-Language Models, VLMs), предобученные на крупномасштабных мультимодальных наборах данных, кодируют богатые визуальные и лингвистические знания, что делает их мощной основой для робототехники. Вместо обучения роботизированных политик с нуля современные подходы адаптируют VLMs в модели, объединяющие зрение, язык и действие (Vision-Language-Action, VLA), которые обеспечивают восприятие и управление на основе естественного языка. Однако существующие VLA-модели, как правило, обладают огромными размерами — часто с миллиардами параметров — что приводит к высоким затратам на обучение и ограниченной применимости в реальных условиях. Кроме того, они полагаются на академические и промышленные наборы данных, игнорируя растущую доступность данных, собранных сообществом с использованием доступных роботизированных платформ. В данной работе мы представляем SmolVLA — компактную, эффективную и ориентированную на сообщество VLA-модель, которая значительно снижает затраты как на обучение, так и на выполнение, сохраняя при этом конкурентоспособную производительность. SmolVLA разработана для обучения на одном графическом процессоре (GPU) и развертывания на потребительских GPU или даже CPU. Для дальнейшего повышения отзывчивости мы внедряем асинхронный стек выполнения, разделяющий прогнозирование восприятия и действий от их выполнения, что позволяет достичь более высокой частоты управления за счет генерации действий порциями. Несмотря на компактный размер, SmolVLA демонстрирует производительность, сопоставимую с VLA-моделями, которые в 10 раз больше. Мы оцениваем SmolVLA на ряде симулированных и реальных роботизированных тестов и публикуем весь код, предобученные модели и данные для обучения.

English

Vision-language models (VLMs) pretrained on large-scale multimodal datasets encode rich visual and linguistic knowledge, making them a strong foundation for robotics. Rather than training robotic policies from scratch, recent approaches adapt VLMs into vision-language-action (VLA) models that enable natural language-driven perception and control. However, existing VLAs are typically massive--often with billions of parameters--leading to high training costs and limited real-world deployability. Moreover, they rely on academic and industrial datasets, overlooking the growing availability of community-collected data from affordable robotic platforms. In this work, we present SmolVLA, a small, efficient, and community-driven VLA that drastically reduces both training and inference costs, while retaining competitive performance. SmolVLA is designed to be trained on a single GPU and deployed on consumer-grade GPUs or even CPUs. To further improve responsiveness, we introduce an asynchronous inference stack decoupling perception and action prediction from action execution, allowing higher control rates with chunked action generation. Despite its compact size, SmolVLA achieves performance comparable to VLAs that are 10x larger. We evaluate SmolVLA on a range of both simulated as well as real-world robotic benchmarks and release all code, pretrained models, and training data.

SmolVLA: Модель "Видение-Язык-Действие" для доступной и эффективной робототехники

SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics

Аннотация

Support