ChatPaper.aiChatPaper

SmolVLM : Redéfinir les modèles multimodaux compacts et efficaces

SmolVLM: Redefining small and efficient multimodal models

April 7, 2025
Auteurs: Andrés Marafioti, Orr Zohar, Miquel Farré, Merve Noyan, Elie Bakouch, Pedro Cuenca, Cyril Zakka, Loubna Ben Allal, Anton Lozhkov, Nouamane Tazi, Vaibhav Srivastav, Joshua Lochner, Hugo Larcher, Mathieu Morlon, Lewis Tunstall, Leandro von Werra, Thomas Wolf
cs.AI

Résumé

Les grands modèles vision-langage (VLMs) offrent des performances exceptionnelles mais nécessitent d'importantes ressources computationnelles, limitant leur déploiement sur les appareils mobiles et périphériques. Les VLMs plus petits reprennent généralement les choix de conception des modèles plus grands, comme une tokenisation extensive des images, ce qui entraîne une utilisation inefficace de la mémoire GPU et une praticité limitée pour les applications embarquées. Nous présentons SmolVLM, une série de modèles multimodaux compacts spécialement conçus pour une inférence économe en ressources. Nous explorons systématiquement les configurations architecturales, les stratégies de tokenisation et la curation de données optimisées pour une faible surcharge computationnelle. Ce faisant, nous identifions des choix de conception clés qui génèrent des gains de performance substantiels sur les tâches d'images et de vidéos avec des empreintes mémoire minimales. Notre plus petit modèle, SmolVLM-256M, utilise moins de 1 Go de mémoire GPU lors de l'inférence et surpasse le modèle Idefics-80B, 300 fois plus grand, malgré un écart de développement de 18 mois. Notre plus grand modèle, avec 2,2 milliards de paramètres, rivalise avec les VLMs de pointe consommant deux fois plus de mémoire GPU. Les modèles SmolVLM vont au-delà des images statiques, démontrant des capacités robustes de compréhension vidéo. Nos résultats soulignent que des optimisations architecturales stratégiques, une tokenisation agressive mais efficace et des données d'entraînement soigneusement sélectionnées améliorent significativement les performances multimodales, facilitant des déploiements pratiques et économes en énergie à des échelles nettement plus réduites.
English
Large Vision-Language Models (VLMs) deliver exceptional performance but require significant computational resources, limiting their deployment on mobile and edge devices. Smaller VLMs typically mirror design choices of larger models, such as extensive image tokenization, leading to inefficient GPU memory usage and constrained practicality for on-device applications. We introduce SmolVLM, a series of compact multimodal models specifically engineered for resource-efficient inference. We systematically explore architectural configurations, tokenization strategies, and data curation optimized for low computational overhead. Through this, we identify key design choices that yield substantial performance gains on image and video tasks with minimal memory footprints. Our smallest model, SmolVLM-256M, uses less than 1GB GPU memory during inference and outperforms the 300-times larger Idefics-80B model, despite an 18-month development gap. Our largest model, at 2.2B parameters, rivals state-of-the-art VLMs consuming twice the GPU memory. SmolVLM models extend beyond static images, demonstrating robust video comprehension capabilities. Our results emphasize that strategic architectural optimizations, aggressive yet efficient tokenization, and carefully curated training data significantly enhance multimodal performance, facilitating practical, energy-efficient deployments at significantly smaller scales.

Summary

AI-Generated Summary

PDF1777April 8, 2025