SmolVLM: Переосмысление компактных и эффективных мультимодальных моделейSmolVLM: Redefining small and efficient multimodal models
Крупные мультимодальные модели (Vision-Language Models, VLMs) демонстрируют выдающуюся производительность, но требуют значительных вычислительных ресурсов, что ограничивает их развертывание на мобильных и периферийных устройствах. Меньшие по размеру VLMs обычно повторяют архитектурные решения более крупных моделей, такие как обширная токенизация изображений, что приводит к неэффективному использованию памяти GPU и ограничивает их практическую применимость для устройств. Мы представляем SmolVLM — серию компактных мультимодальных моделей, специально разработанных для ресурсоэффективного вывода. Мы систематически исследуем архитектурные конфигурации, стратегии токенизации и методы подготовки данных, оптимизированные для минимизации вычислительных затрат. В результате мы выделяем ключевые архитектурные решения, которые обеспечивают значительный прирост производительности в задачах обработки изображений и видео при минимальном использовании памяти. Наша самая маленькая модель, SmolVLM-256M, использует менее 1 ГБ памяти GPU во время вывода и превосходит модель Idefics-80B, которая в 300 раз больше, несмотря на 18-месячный разрыв в разработке. Наша крупнейшая модель с 2,2 млрд параметров конкурирует с современными VLMs, потребляя вдвое меньше памяти GPU. Модели SmolVLM выходят за рамки статических изображений, демонстрируя надежные возможности понимания видео. Наши результаты подчеркивают, что стратегические архитектурные оптимизации, агрессивная, но эффективная токенизация и тщательно подготовленные данные для обучения значительно улучшают мультимодальную производительность, способствуя практичному и энергоэффективному развертыванию на значительно меньших масштабах.