SmolVLM: Neudefinition kleiner und effizienter multimodaler Modelle
SmolVLM: Redefining small and efficient multimodal models
April 7, 2025
Autoren: Andrés Marafioti, Orr Zohar, Miquel Farré, Merve Noyan, Elie Bakouch, Pedro Cuenca, Cyril Zakka, Loubna Ben Allal, Anton Lozhkov, Nouamane Tazi, Vaibhav Srivastav, Joshua Lochner, Hugo Larcher, Mathieu Morlon, Lewis Tunstall, Leandro von Werra, Thomas Wolf
cs.AI
Zusammenfassung
Große Vision-Sprach-Modelle (VLMs) liefern außergewöhnliche Leistungen, erfordern jedoch erhebliche Rechenressourcen, was ihre Bereitstellung auf mobilen und Edge-Geräten einschränkt. Kleinere VLMs übernehmen typischerweise Designentscheidungen größerer Modelle, wie z. B. umfangreiche Bild-Tokenisierung, was zu ineffizienter GPU-Speichernutzung und eingeschränkter Praktikabilität für On-Device-Anwendungen führt.
Wir stellen SmolVLM vor, eine Reihe kompakter multimodaler Modelle, die speziell für ressourceneffizientes Inferenzieren entwickelt wurden. Wir untersuchen systematisch Architekturkonfigurationen, Tokenisierungsstrategien und Datenkuratierung, die für geringen Rechenaufwand optimiert sind. Dadurch identifizieren wir zentrale Designentscheidungen, die erhebliche Leistungssteigerungen bei Bild- und Videoaufgaben mit minimalem Speicherbedarf erzielen.
Unser kleinstes Modell, SmolVLM-256M, verwendet während der Inferenz weniger als 1 GB GPU-Speicher und übertrifft das 300-mal größere Idefics-80B-Modell trotz eines Entwicklungsrückstands von 18 Monaten. Unser größtes Modell mit 2,2 Milliarden Parametern steht modernsten VLMs in nichts nach, verbraucht jedoch nur die Hälfte des GPU-Speichers. Die SmolVLM-Modelle gehen über statische Bilder hinaus und zeigen robuste Fähigkeiten im Verständnis von Videos.
Unsere Ergebnisse unterstreichen, dass strategische Architekturoptimierungen, aggressive aber effiziente Tokenisierung und sorgfältig kuratierte Trainingsdaten die multimodale Leistung erheblich verbessern und praktische, energieeffiziente Bereitstellungen in deutlich kleinerem Maßstab ermöglichen.
English
Large Vision-Language Models (VLMs) deliver exceptional performance but
require significant computational resources, limiting their deployment on
mobile and edge devices. Smaller VLMs typically mirror design choices of larger
models, such as extensive image tokenization, leading to inefficient GPU memory
usage and constrained practicality for on-device applications.
We introduce SmolVLM, a series of compact multimodal models specifically
engineered for resource-efficient inference. We systematically explore
architectural configurations, tokenization strategies, and data curation
optimized for low computational overhead. Through this, we identify key design
choices that yield substantial performance gains on image and video tasks with
minimal memory footprints.
Our smallest model, SmolVLM-256M, uses less than 1GB GPU memory during
inference and outperforms the 300-times larger Idefics-80B model, despite an
18-month development gap. Our largest model, at 2.2B parameters, rivals
state-of-the-art VLMs consuming twice the GPU memory. SmolVLM models extend
beyond static images, demonstrating robust video comprehension capabilities.
Our results emphasize that strategic architectural optimizations, aggressive
yet efficient tokenization, and carefully curated training data significantly
enhance multimodal performance, facilitating practical, energy-efficient
deployments at significantly smaller scales.Summary
AI-Generated Summary