ChatPaper.aiChatPaper

SmolVLM: Redefiniendo los modelos multimodales pequeños y eficientes

SmolVLM: Redefining small and efficient multimodal models

April 7, 2025
Autores: Andrés Marafioti, Orr Zohar, Miquel Farré, Merve Noyan, Elie Bakouch, Pedro Cuenca, Cyril Zakka, Loubna Ben Allal, Anton Lozhkov, Nouamane Tazi, Vaibhav Srivastav, Joshua Lochner, Hugo Larcher, Mathieu Morlon, Lewis Tunstall, Leandro von Werra, Thomas Wolf
cs.AI

Resumen

Los Modelos de Visión y Lenguaje de Gran Escala (VLMs, por sus siglas en inglés) ofrecen un rendimiento excepcional, pero requieren recursos computacionales significativos, lo que limita su implementación en dispositivos móviles y de borde. Los VLMs más pequeños suelen replicar las decisiones de diseño de los modelos más grandes, como la extensa tokenización de imágenes, lo que conduce a un uso ineficiente de la memoria de la GPU y limita su practicidad para aplicaciones en dispositivos. Presentamos SmolVLM, una serie de modelos multimodales compactos específicamente diseñados para una inferencia eficiente en términos de recursos. Exploramos sistemáticamente configuraciones arquitectónicas, estrategias de tokenización y la curación de datos optimizada para un bajo costo computacional. A través de esto, identificamos decisiones clave de diseño que generan ganancias sustanciales de rendimiento en tareas de imágenes y videos con huellas de memoria mínimas. Nuestro modelo más pequeño, SmolVLM-256M, utiliza menos de 1 GB de memoria de GPU durante la inferencia y supera al modelo Idefics-80B, que es 300 veces más grande, a pesar de una brecha de desarrollo de 18 meses. Nuestro modelo más grande, con 2.200 millones de parámetros, rivaliza con los VLMs de última generación que consumen el doble de memoria de GPU. Los modelos SmolVLM van más allá de las imágenes estáticas, demostrando capacidades robustas de comprensión de video. Nuestros resultados enfatizan que las optimizaciones arquitectónicas estratégicas, la tokenización agresiva pero eficiente y los datos de entrenamiento cuidadosamente curados mejoran significativamente el rendimiento multimodal, facilitando implementaciones prácticas y energéticamente eficientes a escalas significativamente más pequeñas.
English
Large Vision-Language Models (VLMs) deliver exceptional performance but require significant computational resources, limiting their deployment on mobile and edge devices. Smaller VLMs typically mirror design choices of larger models, such as extensive image tokenization, leading to inefficient GPU memory usage and constrained practicality for on-device applications. We introduce SmolVLM, a series of compact multimodal models specifically engineered for resource-efficient inference. We systematically explore architectural configurations, tokenization strategies, and data curation optimized for low computational overhead. Through this, we identify key design choices that yield substantial performance gains on image and video tasks with minimal memory footprints. Our smallest model, SmolVLM-256M, uses less than 1GB GPU memory during inference and outperforms the 300-times larger Idefics-80B model, despite an 18-month development gap. Our largest model, at 2.2B parameters, rivals state-of-the-art VLMs consuming twice the GPU memory. SmolVLM models extend beyond static images, demonstrating robust video comprehension capabilities. Our results emphasize that strategic architectural optimizations, aggressive yet efficient tokenization, and carefully curated training data significantly enhance multimodal performance, facilitating practical, energy-efficient deployments at significantly smaller scales.

Summary

AI-Generated Summary

PDF1777April 8, 2025