ChatPaper.aiChatPaper

SmolVLA: 경제적이고 효율적인 로봇공학을 위한 비전-언어-행동 모델

SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics

June 2, 2025
저자: Mustafa Shukor, Dana Aubakirova, Francesco Capuano, Pepijn Kooijmans, Steven Palma, Adil Zouitine, Michel Aractingi, Caroline Pascal, Martino Russi, Andres Marafioti, Simon Alibert, Matthieu Cord, Thomas Wolf, Remi Cadene
cs.AI

초록

대규모 다중모달 데이터셋으로 사전 학습된 시각-언어 모델(VLMs)은 풍부한 시각적 및 언어적 지식을 인코딩하여 로봇 공학의 강력한 기반이 된다. 최근 접근법들은 로봇 정책을 처음부터 학습시키는 대신, VLMs를 시각-언어-행동(VLA) 모델로 적응시켜 자연어 기반의 인식과 제어를 가능하게 한다. 그러나 기존 VLA 모델들은 일반적으로 수십억 개의 파라미터를 가진 대규모 모델로, 높은 학습 비용과 제한된 실제 배포 가능성을 초래한다. 또한, 이들은 학계와 산업계의 데이터셋에 의존하며, 저렴한 로봇 플랫폼에서 수집된 커뮤니티 데이터의 증가하는 가용성을 간과한다. 본 연구에서는 학습 및 추론 비용을 크게 줄이면서도 경쟁력 있는 성능을 유지하는 소형, 효율적, 커뮤니티 주도형 VLA인 SmolVLA를 제안한다. SmolVLA는 단일 GPU에서 학습되고 소비자용 GPU 또는 심지어 CPU에서 배포될 수 있도록 설계되었다. 더 나은 반응성을 위해, 인식 및 행동 예측을 행동 실행과 분리하는 비동기적 추론 스택을 도입하여 청크 단위의 행동 생성을 통해 더 높은 제어 속도를 달성한다. SmolVLA는 컴팩트한 크기임에도 불구하고 10배 더 큰 VLA 모델들과 비슷한 성능을 보인다. 우리는 SmolVLA를 다양한 시뮬레이션 및 실제 로봇 벤치마크에서 평가하고, 모든 코드, 사전 학습된 모델, 학습 데이터를 공개한다.
English
Vision-language models (VLMs) pretrained on large-scale multimodal datasets encode rich visual and linguistic knowledge, making them a strong foundation for robotics. Rather than training robotic policies from scratch, recent approaches adapt VLMs into vision-language-action (VLA) models that enable natural language-driven perception and control. However, existing VLAs are typically massive--often with billions of parameters--leading to high training costs and limited real-world deployability. Moreover, they rely on academic and industrial datasets, overlooking the growing availability of community-collected data from affordable robotic platforms. In this work, we present SmolVLA, a small, efficient, and community-driven VLA that drastically reduces both training and inference costs, while retaining competitive performance. SmolVLA is designed to be trained on a single GPU and deployed on consumer-grade GPUs or even CPUs. To further improve responsiveness, we introduce an asynchronous inference stack decoupling perception and action prediction from action execution, allowing higher control rates with chunked action generation. Despite its compact size, SmolVLA achieves performance comparable to VLAs that are 10x larger. We evaluate SmolVLA on a range of both simulated as well as real-world robotic benchmarks and release all code, pretrained models, and training data.
PDF7414June 3, 2025