소형 언어 모델과 강화된 시각 어휘의 만남
Small Language Model Meets with Reinforced Vision Vocabulary
January 23, 2024
저자: Haoran Wei, Lingyu Kong, Jinyue Chen, Liang Zhao, Zheng Ge, En Yu, Jianjian Sun, Chunrui Han, Xiangyu Zhang
cs.AI
초록
2023년 AI 커뮤니티에서 대형 시각 언어 모델(LVLMs)을 활용하는 것은 트렌디한 주제이다. 그러나 인기 있는 LVLM들은 상대적으로 많은 파라미터 수(7B 이상)를 가지고 있어, 소비자용 GPU에서의 학습 및 배포가 어려워 자원이 제한된 많은 연구자들을 좌절시키고 있다. 오래된 GTX1080ti(우리가 가진 유일한 게임용 그래픽 카드)에서도 현재의 LVLM의 모든 기능을 경험할 수 있다면 얼마나 멋질지 상상해 보라. 이에 따라, 본 보고서에서는 Qwen-1.8B를 기본 "대형" 언어 모델로 사용한 소형 Vary인 Vary-toy를 소개한다. Vary-toy에서는 개선된 시각 어휘를 도입하여 모델이 Vary의 모든 기능을 갖추는 동시에 더 많은 일반성을 확보할 수 있도록 하였다. 구체적으로, 시각 어휘 생성 과정에서 자연 이미지의 부정 샘플을 객체 탐지에 의해 추출된 긍정 샘플 데이터로 대체함으로써, 어휘 네트워크의 용량을 더 충분히 활용하고 자연 객체에 해당하는 시각 정보를 효율적으로 인코딩할 수 있도록 하였다. 실험 결과, Vary-toy는 DocVQA에서 65.6% ANLS, ChartQA에서 59.1% 정확도, RefCOCO에서 88.1% 정확도, MMVet에서 29%의 성능을 달성할 수 있었다. 코드는 홈페이지에 공개될 예정이다.
English
Playing Large Vision Language Models (LVLMs) in 2023 is trendy among the AI
community. However, the relatively large number of parameters (more than 7B) of
popular LVLMs makes it difficult to train and deploy on consumer GPUs,
discouraging many researchers with limited resources. Imagine how cool it would
be to experience all the features of current LVLMs on an old GTX1080ti (our
only game card). Accordingly, we present Vary-toy in this report, a small-size
Vary along with Qwen-1.8B as the base ``large'' language model. In Vary-toy, we
introduce an improved vision vocabulary, allowing the model to not only possess
all features of Vary but also gather more generality. Specifically, we replace
negative samples of natural images with positive sample data driven by object
detection in the procedure of generating vision vocabulary, more sufficiently
utilizing the capacity of the vocabulary network and enabling it to efficiently
encode visual information corresponding to natural objects. For experiments,
Vary-toy can achieve 65.6% ANLS on DocVQA, 59.1% accuracy on ChartQA, 88.1%
accuracy on RefCOCO, and 29% on MMVet. The code will be publicly available on
the homepage.