SmolVLM: Neudefinition kleiner und effizienter multimodaler ModelleSmolVLM: Redefining small and efficient multimodal models
Große Vision-Sprach-Modelle (VLMs) liefern außergewöhnliche Leistungen, erfordern jedoch erhebliche Rechenressourcen, was ihre Bereitstellung auf mobilen und Edge-Geräten einschränkt. Kleinere VLMs übernehmen typischerweise Designentscheidungen größerer Modelle, wie z. B. umfangreiche Bild-Tokenisierung, was zu ineffizienter GPU-Speichernutzung und eingeschränkter Praktikabilität für On-Device-Anwendungen führt. Wir stellen SmolVLM vor, eine Reihe kompakter multimodaler Modelle, die speziell für ressourceneffizientes Inferenzieren entwickelt wurden. Wir untersuchen systematisch Architekturkonfigurationen, Tokenisierungsstrategien und Datenkuratierung, die für geringen Rechenaufwand optimiert sind. Dadurch identifizieren wir zentrale Designentscheidungen, die erhebliche Leistungssteigerungen bei Bild- und Videoaufgaben mit minimalem Speicherbedarf erzielen. Unser kleinstes Modell, SmolVLM-256M, verwendet während der Inferenz weniger als 1 GB GPU-Speicher und übertrifft das 300-mal größere Idefics-80B-Modell trotz eines Entwicklungsrückstands von 18 Monaten. Unser größtes Modell mit 2,2 Milliarden Parametern steht modernsten VLMs in nichts nach, verbraucht jedoch nur die Hälfte des GPU-Speichers. Die SmolVLM-Modelle gehen über statische Bilder hinaus und zeigen robuste Fähigkeiten im Verständnis von Videos. Unsere Ergebnisse unterstreichen, dass strategische Architekturoptimierungen, aggressive aber effiziente Tokenisierung und sorgfältig kuratierte Trainingsdaten die multimodale Leistung erheblich verbessern und praktische, energieeffiziente Bereitstellungen in deutlich kleinerem Maßstab ermöglichen.