VILA^2: VILA 확장 VILA
VILA^2: VILA Augmented VILA
July 24, 2024
저자: Yunhao Fang, Ligeng Zhu, Yao Lu, Yan Wang, Pavlo Molchanov, Jang Hyun Cho, Marco Pavone, Song Han, Hongxu Yin
cs.AI
초록
시각 언어 모델(VLMs)은 대형 언어 모델(LLMs)의 성공에 힘입어 빠르게 발전해 왔습니다. 모델 아키텍처와 훈련 인프라가 급속도로 진보하는 가운데, 데이터 큐레이션은 여전히 충분히 탐구되지 않은 분야로 남아 있습니다. 데이터의 양과 질이 병목 현상을 일으킬 때, 기존 연구는 인터넷에서 데이터 품질을 보장할 수 없는 원시 데이터를 직접 크롤링하거나 GPT-4V/Gemini와 같은 블랙박스 상용 모델에서 지식을 추출하여 해당 모델의 성능 상한에 제한되는 방식을 취해왔습니다. 본 연구에서는 데이터 품질과 모델 성능을 반복적으로 개선하기 위해 자가 증강 단계와 전문가 증강 단계를 포함한 새로운 접근 방식을 소개합니다. 자가 증강 단계에서는 VLM이 자신의 사전 훈련 데이터를 재캡션하여 데이터 품질을 향상시키고, 이를 통해 정제된 데이터셋으로 처음부터 재훈련하여 모델 성능을 개선합니다. 이 과정은 여러 차례 반복될 수 있습니다. 자가 증강이 포화 상태에 이르면, 자가 증강된 VLM을 기반으로 도메인별 전문 지식을 갖춘 여러 전문가 VLMs을 활용하여 작업 지향적 재캡션과 재훈련을 통해 일반적인 VLM에 전문가 지식을 추가로 주입합니다. 자가 증강과 전문가 증강 훈련을 결합하여, 우리는 VILA^2(VILA-augmented-VILA)라는 VLM 패밀리를 소개하며, 이는 다양한 작업에서 기존 기술 대비 정확도를 꾸준히 개선하고, 오픈소스 모델 중 MMMU 리더보드에서 새로운 최첨단 결과를 달성합니다.
English
Visual language models (VLMs) have rapidly progressed, driven by the success
of large language models (LLMs). While model architectures and training
infrastructures advance rapidly, data curation remains under-explored. When
data quantity and quality become a bottleneck, existing work either directly
crawls more raw data from the Internet that does not have a guarantee of data
quality or distills from black-box commercial models (e.g., GPT-4V / Gemini)
causing the performance upper bounded by that model. In this work, we introduce
a novel approach that includes a self-augment step and a specialist-augment
step to iteratively improve data quality and model performance. In the
self-augment step, a VLM recaptions its own pretraining data to enhance data
quality, and then retrains from scratch using this refined dataset to improve
model performance. This process can iterate for several rounds. Once
self-augmentation saturates, we employ several specialist VLMs finetuned from
the self-augmented VLM with domain-specific expertise, to further infuse
specialist knowledge into the generalist VLM through task-oriented recaptioning
and retraining. With the combined self-augmented and specialist-augmented
training, we introduce VILA^2 (VILA-augmented-VILA), a VLM family that
consistently improves the accuracy on a wide range of tasks over prior art, and
achieves new state-of-the-art results on MMMU leaderboard among open-sourced
models.Summary
AI-Generated Summary