ChatPaper.aiChatPaper

SmolVLA: Ein Vision-Sprache-Handlungs-Modell für kostengünstige und effiziente Robotik

SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics

June 2, 2025
Autoren: Mustafa Shukor, Dana Aubakirova, Francesco Capuano, Pepijn Kooijmans, Steven Palma, Adil Zouitine, Michel Aractingi, Caroline Pascal, Martino Russi, Andres Marafioti, Simon Alibert, Matthieu Cord, Thomas Wolf, Remi Cadene
cs.AI

Zusammenfassung

Vision-Language-Modelle (VLMs), die auf groß angelegten multimodalen Datensätzen vortrainiert wurden, kodieren umfangreiches visuelles und linguistisches Wissen und bilden somit eine solide Grundlage für die Robotik. Anstatt Roboterrichtlinien von Grund auf zu trainieren, passen neuere Ansätze VLMs zu Vision-Language-Action-Modellen (VLAs) an, die eine natürliche sprachgesteuerte Wahrnehmung und Steuerung ermöglichen. Allerdings sind bestehende VLAs typischerweise sehr umfangreich – oft mit Milliarden von Parametern – was zu hohen Trainingskosten und begrenzter Einsatzfähigkeit in der realen Welt führt. Darüber hinaus stützen sie sich auf akademische und industrielle Datensätze und übersehen dabei die zunehmende Verfügbarkeit von gemeinschaftlich gesammelten Daten von erschwinglichen Roboterplattformen. In dieser Arbeit präsentieren wir SmolVLA, ein kleines, effizientes und gemeinschaftsorientiertes VLA, das sowohl die Trainings- als auch die Inferenzkosten drastisch reduziert, während es eine wettbewerbsfähige Leistung beibehält. SmolVLA ist so konzipiert, dass es auf einer einzelnen GPU trainiert und auf Consumer-GPUs oder sogar CPUs eingesetzt werden kann. Um die Reaktionsfähigkeit weiter zu verbessern, führen wir einen asynchronen Inferenz-Stack ein, der die Wahrnehmung und Aktionsvorhersage von der Aktionsausführung entkoppelt und so höhere Steuerungsraten mit segmentierter Aktionsgenerierung ermöglicht. Trotz seiner kompakten Größe erreicht SmolVLA eine Leistung, die mit VLAs vergleichbar ist, die 10-mal größer sind. Wir evaluieren SmolVLA auf einer Reihe von simulierten sowie realen Roboter-Benchmarks und veröffentlichen den gesamten Code, vortrainierte Modelle und Trainingsdaten.
English
Vision-language models (VLMs) pretrained on large-scale multimodal datasets encode rich visual and linguistic knowledge, making them a strong foundation for robotics. Rather than training robotic policies from scratch, recent approaches adapt VLMs into vision-language-action (VLA) models that enable natural language-driven perception and control. However, existing VLAs are typically massive--often with billions of parameters--leading to high training costs and limited real-world deployability. Moreover, they rely on academic and industrial datasets, overlooking the growing availability of community-collected data from affordable robotic platforms. In this work, we present SmolVLA, a small, efficient, and community-driven VLA that drastically reduces both training and inference costs, while retaining competitive performance. SmolVLA is designed to be trained on a single GPU and deployed on consumer-grade GPUs or even CPUs. To further improve responsiveness, we introduce an asynchronous inference stack decoupling perception and action prediction from action execution, allowing higher control rates with chunked action generation. Despite its compact size, SmolVLA achieves performance comparable to VLAs that are 10x larger. We evaluate SmolVLA on a range of both simulated as well as real-world robotic benchmarks and release all code, pretrained models, and training data.
PDF7414June 3, 2025