SmolVLM: Переосмысление компактных и эффективных мультимодальных моделей
SmolVLM: Redefining small and efficient multimodal models
April 7, 2025
Авторы: Andrés Marafioti, Orr Zohar, Miquel Farré, Merve Noyan, Elie Bakouch, Pedro Cuenca, Cyril Zakka, Loubna Ben Allal, Anton Lozhkov, Nouamane Tazi, Vaibhav Srivastav, Joshua Lochner, Hugo Larcher, Mathieu Morlon, Lewis Tunstall, Leandro von Werra, Thomas Wolf
cs.AI
Аннотация
Крупные мультимодальные модели (Vision-Language Models, VLMs) демонстрируют выдающуюся производительность, но требуют значительных вычислительных ресурсов, что ограничивает их развертывание на мобильных и периферийных устройствах. Меньшие по размеру VLMs обычно повторяют архитектурные решения более крупных моделей, такие как обширная токенизация изображений, что приводит к неэффективному использованию памяти GPU и ограничивает их практическую применимость для устройств.
Мы представляем SmolVLM — серию компактных мультимодальных моделей, специально разработанных для ресурсоэффективного вывода. Мы систематически исследуем архитектурные конфигурации, стратегии токенизации и методы подготовки данных, оптимизированные для минимизации вычислительных затрат. В результате мы выделяем ключевые архитектурные решения, которые обеспечивают значительный прирост производительности в задачах обработки изображений и видео при минимальном использовании памяти.
Наша самая маленькая модель, SmolVLM-256M, использует менее 1 ГБ памяти GPU во время вывода и превосходит модель Idefics-80B, которая в 300 раз больше, несмотря на 18-месячный разрыв в разработке. Наша крупнейшая модель с 2,2 млрд параметров конкурирует с современными VLMs, потребляя вдвое меньше памяти GPU. Модели SmolVLM выходят за рамки статических изображений, демонстрируя надежные возможности понимания видео.
Наши результаты подчеркивают, что стратегические архитектурные оптимизации, агрессивная, но эффективная токенизация и тщательно подготовленные данные для обучения значительно улучшают мультимодальную производительность, способствуя практичному и энергоэффективному развертыванию на значительно меньших масштабах.
English
Large Vision-Language Models (VLMs) deliver exceptional performance but
require significant computational resources, limiting their deployment on
mobile and edge devices. Smaller VLMs typically mirror design choices of larger
models, such as extensive image tokenization, leading to inefficient GPU memory
usage and constrained practicality for on-device applications.
We introduce SmolVLM, a series of compact multimodal models specifically
engineered for resource-efficient inference. We systematically explore
architectural configurations, tokenization strategies, and data curation
optimized for low computational overhead. Through this, we identify key design
choices that yield substantial performance gains on image and video tasks with
minimal memory footprints.
Our smallest model, SmolVLM-256M, uses less than 1GB GPU memory during
inference and outperforms the 300-times larger Idefics-80B model, despite an
18-month development gap. Our largest model, at 2.2B parameters, rivals
state-of-the-art VLMs consuming twice the GPU memory. SmolVLM models extend
beyond static images, demonstrating robust video comprehension capabilities.
Our results emphasize that strategic architectural optimizations, aggressive
yet efficient tokenization, and carefully curated training data significantly
enhance multimodal performance, facilitating practical, energy-efficient
deployments at significantly smaller scales.Summary
AI-Generated Summary