SmolVLM: 소형 및 효율적인 멀티모달 모델 재정의SmolVLM: Redefining small and efficient multimodal models
대규모 비전-언어 모델(VLMs)은 뛰어난 성능을 제공하지만 상당한 컴퓨팅 자원을 필요로 하여 모바일 및 에지 디바이스에의 배포가 제한됩니다. 소형 VLMs은 일반적으로 대형 모델의 설계 선택을 그대로 반영하는데, 이는 과도한 이미지 토큰화로 인해 GPU 메모리 사용이 비효율적이고 온디바이스 애플리케이션의 실용성이 제한됩니다. 우리는 자원 효율적인 추론을 위해 특별히 설계된 소형 멀티모달 모델 시리즈인 SmolVLM을 소개합니다. 우리는 낮은 컴퓨팅 오버헤드에 최적화된 아키텍처 구성, 토큰화 전략, 데이터 큐레이션을 체계적으로 탐구했습니다. 이를 통해 최소한의 메모리 사용량으로 이미지 및 비디오 작업에서 상당한 성능 향상을 가져오는 핵심 설계 선택을 확인했습니다. 가장 작은 모델인 SmolVLM-256M은 추론 중 1GB 미만의 GPU 메모리를 사용하며, 18개월의 개발 격차에도 불구하고 300배 더 큰 Idefics-80B 모델을 능가합니다. 가장 큰 모델은 2.2B 파라미터로, 두 배의 GPU 메모리를 소비하는 최첨단 VLMs에 필적합니다. SmolVLM 모델은 정적 이미지를 넘어 강력한 비디오 이해 능력을 보여줍니다. 우리의 결과는 전략적인 아키텍처 최적화, 공격적이면서도 효율적인 토큰화, 그리고 신중하게 큐레이션된 훈련 데이터가 멀티모달 성능을 크게 향상시키며, 상당히 작은 규모에서도 실용적이고 에너지 효율적인 배포를 가능하게 한다는 점을 강조합니다.