SmolVLM: 소형 및 효율적인 멀티모달 모델 재정의
SmolVLM: Redefining small and efficient multimodal models
April 7, 2025
저자: Andrés Marafioti, Orr Zohar, Miquel Farré, Merve Noyan, Elie Bakouch, Pedro Cuenca, Cyril Zakka, Loubna Ben Allal, Anton Lozhkov, Nouamane Tazi, Vaibhav Srivastav, Joshua Lochner, Hugo Larcher, Mathieu Morlon, Lewis Tunstall, Leandro von Werra, Thomas Wolf
cs.AI
초록
대규모 비전-언어 모델(VLMs)은 뛰어난 성능을 제공하지만 상당한 컴퓨팅 자원을 필요로 하여 모바일 및 에지 디바이스에의 배포가 제한됩니다. 소형 VLMs은 일반적으로 대형 모델의 설계 선택을 그대로 반영하는데, 이는 과도한 이미지 토큰화로 인해 GPU 메모리 사용이 비효율적이고 온디바이스 애플리케이션의 실용성이 제한됩니다.
우리는 자원 효율적인 추론을 위해 특별히 설계된 소형 멀티모달 모델 시리즈인 SmolVLM을 소개합니다. 우리는 낮은 컴퓨팅 오버헤드에 최적화된 아키텍처 구성, 토큰화 전략, 데이터 큐레이션을 체계적으로 탐구했습니다. 이를 통해 최소한의 메모리 사용량으로 이미지 및 비디오 작업에서 상당한 성능 향상을 가져오는 핵심 설계 선택을 확인했습니다.
가장 작은 모델인 SmolVLM-256M은 추론 중 1GB 미만의 GPU 메모리를 사용하며, 18개월의 개발 격차에도 불구하고 300배 더 큰 Idefics-80B 모델을 능가합니다. 가장 큰 모델은 2.2B 파라미터로, 두 배의 GPU 메모리를 소비하는 최첨단 VLMs에 필적합니다. SmolVLM 모델은 정적 이미지를 넘어 강력한 비디오 이해 능력을 보여줍니다.
우리의 결과는 전략적인 아키텍처 최적화, 공격적이면서도 효율적인 토큰화, 그리고 신중하게 큐레이션된 훈련 데이터가 멀티모달 성능을 크게 향상시키며, 상당히 작은 규모에서도 실용적이고 에너지 효율적인 배포를 가능하게 한다는 점을 강조합니다.
English
Large Vision-Language Models (VLMs) deliver exceptional performance but
require significant computational resources, limiting their deployment on
mobile and edge devices. Smaller VLMs typically mirror design choices of larger
models, such as extensive image tokenization, leading to inefficient GPU memory
usage and constrained practicality for on-device applications.
We introduce SmolVLM, a series of compact multimodal models specifically
engineered for resource-efficient inference. We systematically explore
architectural configurations, tokenization strategies, and data curation
optimized for low computational overhead. Through this, we identify key design
choices that yield substantial performance gains on image and video tasks with
minimal memory footprints.
Our smallest model, SmolVLM-256M, uses less than 1GB GPU memory during
inference and outperforms the 300-times larger Idefics-80B model, despite an
18-month development gap. Our largest model, at 2.2B parameters, rivals
state-of-the-art VLMs consuming twice the GPU memory. SmolVLM models extend
beyond static images, demonstrating robust video comprehension capabilities.
Our results emphasize that strategic architectural optimizations, aggressive
yet efficient tokenization, and carefully curated training data significantly
enhance multimodal performance, facilitating practical, energy-efficient
deployments at significantly smaller scales.Summary
AI-Generated Summary