SmolVLM: Herdefiniëring van kleine en efficiënte multimodale modellen
SmolVLM: Redefining small and efficient multimodal models
April 7, 2025
Auteurs: Andrés Marafioti, Orr Zohar, Miquel Farré, Merve Noyan, Elie Bakouch, Pedro Cuenca, Cyril Zakka, Loubna Ben Allal, Anton Lozhkov, Nouamane Tazi, Vaibhav Srivastav, Joshua Lochner, Hugo Larcher, Mathieu Morlon, Lewis Tunstall, Leandro von Werra, Thomas Wolf
cs.AI
Samenvatting
Grote Vision-Language Models (VLMs) leveren uitzonderlijke prestaties, maar vereisen aanzienlijke rekenkracht, wat hun inzet op mobiele en edge-apparaten beperkt. Kleinere VLMs volgen doorgaans de ontwerpkeuzes van grotere modellen, zoals uitgebreide beeldtokenisatie, wat leidt tot inefficiënt GPU-geheugengebruik en beperkte praktische bruikbaarheid voor on-device toepassingen.
Wij introduceren SmolVLM, een reeks compacte multimodale modellen die specifiek zijn ontworpen voor resource-efficiënte inferentie. We onderzoeken systematisch architectuurconfiguraties, tokenisatiestrategieën en data-curatie die zijn geoptimaliseerd voor lage rekenkosten. Hierdoor identificeren we cruciale ontwerpkeuzes die aanzienlijke prestatieverbeteringen opleveren bij beeld- en videotaken met minimale geheugenvoetafdruk.
Ons kleinste model, SmolVLM-256M, gebruikt minder dan 1GB GPU-geheugen tijdens inferentie en presteert beter dan het 300 keer grotere Idefics-80B-model, ondanks een ontwikkelingsachterstand van 18 maanden. Ons grootste model, met 2,2 miljard parameters, kan concurreren met state-of-the-art VLMs die het dubbele GPU-geheugen verbruiken. SmolVLM-modellen gaan verder dan statische beelden en tonen robuuste videobegripcapaciteiten.
Onze resultaten benadrukken dat strategische architectuuromzettingen, agressieve maar efficiënte tokenisatie en zorgvuldig samengestelde trainingsdata de multimodale prestaties aanzienlijk verbeteren, waardoor praktische, energie-efficiënte implementaties op aanzienlijk kleinere schaal mogelijk worden.
English
Large Vision-Language Models (VLMs) deliver exceptional performance but
require significant computational resources, limiting their deployment on
mobile and edge devices. Smaller VLMs typically mirror design choices of larger
models, such as extensive image tokenization, leading to inefficient GPU memory
usage and constrained practicality for on-device applications.
We introduce SmolVLM, a series of compact multimodal models specifically
engineered for resource-efficient inference. We systematically explore
architectural configurations, tokenization strategies, and data curation
optimized for low computational overhead. Through this, we identify key design
choices that yield substantial performance gains on image and video tasks with
minimal memory footprints.
Our smallest model, SmolVLM-256M, uses less than 1GB GPU memory during
inference and outperforms the 300-times larger Idefics-80B model, despite an
18-month development gap. Our largest model, at 2.2B parameters, rivals
state-of-the-art VLMs consuming twice the GPU memory. SmolVLM models extend
beyond static images, demonstrating robust video comprehension capabilities.
Our results emphasize that strategic architectural optimizations, aggressive
yet efficient tokenization, and carefully curated training data significantly
enhance multimodal performance, facilitating practical, energy-efficient
deployments at significantly smaller scales.Summary
AI-Generated Summary