SmolVLM: Redefinindo modelos multimodais pequenos e eficientesSmolVLM: Redefining small and efficient multimodal models
Grandes Modelos de Visão e Linguagem (VLMs) oferecem desempenho excepcional, mas exigem recursos computacionais significativos, limitando sua implantação em dispositivos móveis e de borda. VLMs menores geralmente replicam escolhas de design de modelos maiores, como a extensa tokenização de imagens, resultando em uso ineficiente de memória GPU e praticidade limitada para aplicações em dispositivos. Apresentamos o SmolVLM, uma série de modelos multimodais compactos especificamente projetados para inferência com eficiência de recursos. Exploramos sistematicamente configurações arquitetônicas, estratégias de tokenização e curadoria de dados otimizadas para baixa sobrecarga computacional. Com isso, identificamos escolhas de design fundamentais que proporcionam ganhos substanciais de desempenho em tarefas de imagem e vídeo com pegadas de memória mínimas. Nosso menor modelo, o SmolVLM-256M, utiliza menos de 1GB de memória GPU durante a inferência e supera o modelo Idefics-80B, que é 300 vezes maior, apesar de uma diferença de desenvolvimento de 18 meses. Nosso maior modelo, com 2,2 bilhões de parâmetros, rivaliza com VLMs de última geração que consomem o dobro da memória GPU. Os modelos SmolVLM vão além de imagens estáticas, demonstrando capacidades robustas de compreensão de vídeo. Nossos resultados enfatizam que otimizações arquitetônicas estratégicas, tokenização agressiva porém eficiente e dados de treinamento cuidadosamente curados melhoram significativamente o desempenho multimodal, facilitando implantações práticas e energeticamente eficientes em escalas significativamente menores.