SmolVLM: Переосмысление компактных и эффективных мультимодальных моделей

Аннотация

Крупные мультимодальные модели (Vision-Language Models, VLMs) демонстрируют выдающуюся производительность, но требуют значительных вычислительных ресурсов, что ограничивает их развертывание на мобильных и периферийных устройствах. Меньшие по размеру VLMs обычно повторяют архитектурные решения более крупных моделей, такие как обширная токенизация изображений, что приводит к неэффективному использованию памяти GPU и ограничивает их практическую применимость для устройств. Мы представляем SmolVLM — серию компактных мультимодальных моделей, специально разработанных для ресурсоэффективного вывода. Мы систематически исследуем архитектурные конфигурации, стратегии токенизации и методы подготовки данных, оптимизированные для минимизации вычислительных затрат. В результате мы выделяем ключевые архитектурные решения, которые обеспечивают значительный прирост производительности в задачах обработки изображений и видео при минимальном использовании памяти. Наша самая маленькая модель, SmolVLM-256M, использует менее 1 ГБ памяти GPU во время вывода и превосходит модель Idefics-80B, которая в 300 раз больше, несмотря на 18-месячный разрыв в разработке. Наша крупнейшая модель с 2,2 млрд параметров конкурирует с современными VLMs, потребляя вдвое меньше памяти GPU. Модели SmolVLM выходят за рамки статических изображений, демонстрируя надежные возможности понимания видео. Наши результаты подчеркивают, что стратегические архитектурные оптимизации, агрессивная, но эффективная токенизация и тщательно подготовленные данные для обучения значительно улучшают мультимодальную производительность, способствуя практичному и энергоэффективному развертыванию на значительно меньших масштабах.

English

Large Vision-Language Models (VLMs) deliver exceptional performance but require significant computational resources, limiting their deployment on mobile and edge devices. Smaller VLMs typically mirror design choices of larger models, such as extensive image tokenization, leading to inefficient GPU memory usage and constrained practicality for on-device applications. We introduce SmolVLM, a series of compact multimodal models specifically engineered for resource-efficient inference. We systematically explore architectural configurations, tokenization strategies, and data curation optimized for low computational overhead. Through this, we identify key design choices that yield substantial performance gains on image and video tasks with minimal memory footprints. Our smallest model, SmolVLM-256M, uses less than 1GB GPU memory during inference and outperforms the 300-times larger Idefics-80B model, despite an 18-month development gap. Our largest model, at 2.2B parameters, rivals state-of-the-art VLMs consuming twice the GPU memory. SmolVLM models extend beyond static images, demonstrating robust video comprehension capabilities. Our results emphasize that strategic architectural optimizations, aggressive yet efficient tokenization, and carefully curated training data significantly enhance multimodal performance, facilitating practical, energy-efficient deployments at significantly smaller scales.

SmolVLM: Переосмысление компактных и эффективных мультимодальных моделей

SmolVLM: Redefining small and efficient multimodal models

Аннотация

Support