SmolVLM: Redefiniendo los modelos multimodales pequeños y eficientesSmolVLM: Redefining small and efficient multimodal models
Los Modelos de Visión y Lenguaje de Gran Escala (VLMs, por sus siglas en inglés) ofrecen un rendimiento excepcional, pero requieren recursos computacionales significativos, lo que limita su implementación en dispositivos móviles y de borde. Los VLMs más pequeños suelen replicar las decisiones de diseño de los modelos más grandes, como la extensa tokenización de imágenes, lo que conduce a un uso ineficiente de la memoria de la GPU y limita su practicidad para aplicaciones en dispositivos. Presentamos SmolVLM, una serie de modelos multimodales compactos específicamente diseñados para una inferencia eficiente en términos de recursos. Exploramos sistemáticamente configuraciones arquitectónicas, estrategias de tokenización y la curación de datos optimizada para un bajo costo computacional. A través de esto, identificamos decisiones clave de diseño que generan ganancias sustanciales de rendimiento en tareas de imágenes y videos con huellas de memoria mínimas. Nuestro modelo más pequeño, SmolVLM-256M, utiliza menos de 1 GB de memoria de GPU durante la inferencia y supera al modelo Idefics-80B, que es 300 veces más grande, a pesar de una brecha de desarrollo de 18 meses. Nuestro modelo más grande, con 2.200 millones de parámetros, rivaliza con los VLMs de última generación que consumen el doble de memoria de GPU. Los modelos SmolVLM van más allá de las imágenes estáticas, demostrando capacidades robustas de comprensión de video. Nuestros resultados enfatizan que las optimizaciones arquitectónicas estratégicas, la tokenización agresiva pero eficiente y los datos de entrenamiento cuidadosamente curados mejoran significativamente el rendimiento multimodal, facilitando implementaciones prácticas y energéticamente eficientes a escalas significativamente más pequeñas.