SmolVLM: Herdefiniëring van kleine en efficiënte multimodale modellenSmolVLM: Redefining small and efficient multimodal models
Grote Vision-Language Models (VLMs) leveren uitzonderlijke prestaties, maar vereisen aanzienlijke rekenkracht, wat hun inzet op mobiele en edge-apparaten beperkt. Kleinere VLMs volgen doorgaans de ontwerpkeuzes van grotere modellen, zoals uitgebreide beeldtokenisatie, wat leidt tot inefficiënt GPU-geheugengebruik en beperkte praktische bruikbaarheid voor on-device toepassingen. Wij introduceren SmolVLM, een reeks compacte multimodale modellen die specifiek zijn ontworpen voor resource-efficiënte inferentie. We onderzoeken systematisch architectuurconfiguraties, tokenisatiestrategieën en data-curatie die zijn geoptimaliseerd voor lage rekenkosten. Hierdoor identificeren we cruciale ontwerpkeuzes die aanzienlijke prestatieverbeteringen opleveren bij beeld- en videotaken met minimale geheugenvoetafdruk. Ons kleinste model, SmolVLM-256M, gebruikt minder dan 1GB GPU-geheugen tijdens inferentie en presteert beter dan het 300 keer grotere Idefics-80B-model, ondanks een ontwikkelingsachterstand van 18 maanden. Ons grootste model, met 2,2 miljard parameters, kan concurreren met state-of-the-art VLMs die het dubbele GPU-geheugen verbruiken. SmolVLM-modellen gaan verder dan statische beelden en tonen robuuste videobegripcapaciteiten. Onze resultaten benadrukken dat strategische architectuuromzettingen, agressieve maar efficiënte tokenisatie en zorgvuldig samengestelde trainingsdata de multimodale prestaties aanzienlijk verbeteren, waardoor praktische, energie-efficiënte implementaties op aanzienlijk kleinere schaal mogelijk worden.