SmolVLM: Neudefinition kleiner und effizienter multimodaler Modelle

papers.abstract

Große Vision-Sprach-Modelle (VLMs) liefern außergewöhnliche Leistungen, erfordern jedoch erhebliche Rechenressourcen, was ihre Bereitstellung auf mobilen und Edge-Geräten einschränkt. Kleinere VLMs übernehmen typischerweise Designentscheidungen größerer Modelle, wie z. B. umfangreiche Bild-Tokenisierung, was zu ineffizienter GPU-Speichernutzung und eingeschränkter Praktikabilität für On-Device-Anwendungen führt. Wir stellen SmolVLM vor, eine Reihe kompakter multimodaler Modelle, die speziell für ressourceneffizientes Inferenzieren entwickelt wurden. Wir untersuchen systematisch Architekturkonfigurationen, Tokenisierungsstrategien und Datenkuratierung, die für geringen Rechenaufwand optimiert sind. Dadurch identifizieren wir zentrale Designentscheidungen, die erhebliche Leistungssteigerungen bei Bild- und Videoaufgaben mit minimalem Speicherbedarf erzielen. Unser kleinstes Modell, SmolVLM-256M, verwendet während der Inferenz weniger als 1 GB GPU-Speicher und übertrifft das 300-mal größere Idefics-80B-Modell trotz eines Entwicklungsrückstands von 18 Monaten. Unser größtes Modell mit 2,2 Milliarden Parametern steht modernsten VLMs in nichts nach, verbraucht jedoch nur die Hälfte des GPU-Speichers. Die SmolVLM-Modelle gehen über statische Bilder hinaus und zeigen robuste Fähigkeiten im Verständnis von Videos. Unsere Ergebnisse unterstreichen, dass strategische Architekturoptimierungen, aggressive aber effiziente Tokenisierung und sorgfältig kuratierte Trainingsdaten die multimodale Leistung erheblich verbessern und praktische, energieeffiziente Bereitstellungen in deutlich kleinerem Maßstab ermöglichen.

English

Large Vision-Language Models (VLMs) deliver exceptional performance but require significant computational resources, limiting their deployment on mobile and edge devices. Smaller VLMs typically mirror design choices of larger models, such as extensive image tokenization, leading to inefficient GPU memory usage and constrained practicality for on-device applications. We introduce SmolVLM, a series of compact multimodal models specifically engineered for resource-efficient inference. We systematically explore architectural configurations, tokenization strategies, and data curation optimized for low computational overhead. Through this, we identify key design choices that yield substantial performance gains on image and video tasks with minimal memory footprints. Our smallest model, SmolVLM-256M, uses less than 1GB GPU memory during inference and outperforms the 300-times larger Idefics-80B model, despite an 18-month development gap. Our largest model, at 2.2B parameters, rivals state-of-the-art VLMs consuming twice the GPU memory. SmolVLM models extend beyond static images, demonstrating robust video comprehension capabilities. Our results emphasize that strategic architectural optimizations, aggressive yet efficient tokenization, and carefully curated training data significantly enhance multimodal performance, facilitating practical, energy-efficient deployments at significantly smaller scales.

SmolVLM: Neudefinition kleiner und effizienter multimodaler Modelle

SmolVLM: Redefining small and efficient multimodal models

papers.abstract

Support