ChatPaper.aiChatPaper

SmolVLM: 소형 및 효율적인 멀티모달 모델 재정의

SmolVLM: Redefining small and efficient multimodal models

April 7, 2025
저자: Andrés Marafioti, Orr Zohar, Miquel Farré, Merve Noyan, Elie Bakouch, Pedro Cuenca, Cyril Zakka, Loubna Ben Allal, Anton Lozhkov, Nouamane Tazi, Vaibhav Srivastav, Joshua Lochner, Hugo Larcher, Mathieu Morlon, Lewis Tunstall, Leandro von Werra, Thomas Wolf
cs.AI

초록

대규모 비전-언어 모델(VLMs)은 뛰어난 성능을 제공하지만 상당한 컴퓨팅 자원을 필요로 하여 모바일 및 에지 디바이스에의 배포가 제한됩니다. 소형 VLMs은 일반적으로 대형 모델의 설계 선택을 그대로 반영하는데, 이는 과도한 이미지 토큰화로 인해 GPU 메모리 사용이 비효율적이고 온디바이스 애플리케이션의 실용성이 제한됩니다. 우리는 자원 효율적인 추론을 위해 특별히 설계된 소형 멀티모달 모델 시리즈인 SmolVLM을 소개합니다. 우리는 낮은 컴퓨팅 오버헤드에 최적화된 아키텍처 구성, 토큰화 전략, 데이터 큐레이션을 체계적으로 탐구했습니다. 이를 통해 최소한의 메모리 사용량으로 이미지 및 비디오 작업에서 상당한 성능 향상을 가져오는 핵심 설계 선택을 확인했습니다. 가장 작은 모델인 SmolVLM-256M은 추론 중 1GB 미만의 GPU 메모리를 사용하며, 18개월의 개발 격차에도 불구하고 300배 더 큰 Idefics-80B 모델을 능가합니다. 가장 큰 모델은 2.2B 파라미터로, 두 배의 GPU 메모리를 소비하는 최첨단 VLMs에 필적합니다. SmolVLM 모델은 정적 이미지를 넘어 강력한 비디오 이해 능력을 보여줍니다. 우리의 결과는 전략적인 아키텍처 최적화, 공격적이면서도 효율적인 토큰화, 그리고 신중하게 큐레이션된 훈련 데이터가 멀티모달 성능을 크게 향상시키며, 상당히 작은 규모에서도 실용적이고 에너지 효율적인 배포를 가능하게 한다는 점을 강조합니다.
English
Large Vision-Language Models (VLMs) deliver exceptional performance but require significant computational resources, limiting their deployment on mobile and edge devices. Smaller VLMs typically mirror design choices of larger models, such as extensive image tokenization, leading to inefficient GPU memory usage and constrained practicality for on-device applications. We introduce SmolVLM, a series of compact multimodal models specifically engineered for resource-efficient inference. We systematically explore architectural configurations, tokenization strategies, and data curation optimized for low computational overhead. Through this, we identify key design choices that yield substantial performance gains on image and video tasks with minimal memory footprints. Our smallest model, SmolVLM-256M, uses less than 1GB GPU memory during inference and outperforms the 300-times larger Idefics-80B model, despite an 18-month development gap. Our largest model, at 2.2B parameters, rivals state-of-the-art VLMs consuming twice the GPU memory. SmolVLM models extend beyond static images, demonstrating robust video comprehension capabilities. Our results emphasize that strategic architectural optimizations, aggressive yet efficient tokenization, and carefully curated training data significantly enhance multimodal performance, facilitating practical, energy-efficient deployments at significantly smaller scales.

Summary

AI-Generated Summary

PDF1777April 8, 2025