ChatPaper.aiChatPaper

SmolVLM: Redefinindo modelos multimodais pequenos e eficientes

SmolVLM: Redefining small and efficient multimodal models

April 7, 2025
Autores: Andrés Marafioti, Orr Zohar, Miquel Farré, Merve Noyan, Elie Bakouch, Pedro Cuenca, Cyril Zakka, Loubna Ben Allal, Anton Lozhkov, Nouamane Tazi, Vaibhav Srivastav, Joshua Lochner, Hugo Larcher, Mathieu Morlon, Lewis Tunstall, Leandro von Werra, Thomas Wolf
cs.AI

Resumo

Grandes Modelos de Visão e Linguagem (VLMs) oferecem desempenho excepcional, mas exigem recursos computacionais significativos, limitando sua implantação em dispositivos móveis e de borda. VLMs menores geralmente replicam escolhas de design de modelos maiores, como a extensa tokenização de imagens, resultando em uso ineficiente de memória GPU e praticidade limitada para aplicações em dispositivos. Apresentamos o SmolVLM, uma série de modelos multimodais compactos especificamente projetados para inferência com eficiência de recursos. Exploramos sistematicamente configurações arquitetônicas, estratégias de tokenização e curadoria de dados otimizadas para baixa sobrecarga computacional. Com isso, identificamos escolhas de design fundamentais que proporcionam ganhos substanciais de desempenho em tarefas de imagem e vídeo com pegadas de memória mínimas. Nosso menor modelo, o SmolVLM-256M, utiliza menos de 1GB de memória GPU durante a inferência e supera o modelo Idefics-80B, que é 300 vezes maior, apesar de uma diferença de desenvolvimento de 18 meses. Nosso maior modelo, com 2,2 bilhões de parâmetros, rivaliza com VLMs de última geração que consomem o dobro da memória GPU. Os modelos SmolVLM vão além de imagens estáticas, demonstrando capacidades robustas de compreensão de vídeo. Nossos resultados enfatizam que otimizações arquitetônicas estratégicas, tokenização agressiva porém eficiente e dados de treinamento cuidadosamente curados melhoram significativamente o desempenho multimodal, facilitando implantações práticas e energeticamente eficientes em escalas significativamente menores.
English
Large Vision-Language Models (VLMs) deliver exceptional performance but require significant computational resources, limiting their deployment on mobile and edge devices. Smaller VLMs typically mirror design choices of larger models, such as extensive image tokenization, leading to inefficient GPU memory usage and constrained practicality for on-device applications. We introduce SmolVLM, a series of compact multimodal models specifically engineered for resource-efficient inference. We systematically explore architectural configurations, tokenization strategies, and data curation optimized for low computational overhead. Through this, we identify key design choices that yield substantial performance gains on image and video tasks with minimal memory footprints. Our smallest model, SmolVLM-256M, uses less than 1GB GPU memory during inference and outperforms the 300-times larger Idefics-80B model, despite an 18-month development gap. Our largest model, at 2.2B parameters, rivals state-of-the-art VLMs consuming twice the GPU memory. SmolVLM models extend beyond static images, demonstrating robust video comprehension capabilities. Our results emphasize that strategic architectural optimizations, aggressive yet efficient tokenization, and carefully curated training data significantly enhance multimodal performance, facilitating practical, energy-efficient deployments at significantly smaller scales.

Summary

AI-Generated Summary

PDF1777April 8, 2025