LLaVA-HD를 넘어서: 고해상도 대형 멀티모달 모델 탐구
Beyond LLaVA-HD: Diving into High-Resolution Large Multimodal Models
June 12, 2024
저자: Yi-Fan Zhang, Qingsong Wen, Chaoyou Fu, Xue Wang, Zhang Zhang, Liang Wang, Rong Jin
cs.AI
초록
고해상도로 명확하게 보는 것은 대규모 멀티모달 모델(LMM)의 기초로, 시각적 인식과 추론에 필수적임이 입증되었습니다. 기존 연구들은 일반적으로 전역(global)과 지역(local) 분기를 포함하는 단순한 해상도 확대 방법을 사용해 왔는데, 여기서 지역 분기는 이미지 패치를 잘라내되 전역 분기와 동일한 해상도로 크기를 조정한 것입니다. 이는 더 높은 해상도가 더 많은 지역 패치를 필요로 하여 과도한 계산 비용을 초래하며, 동시에 지역 이미지 토큰의 우세가 전역 문맥을 약화시킬 수 있다는 것을 의미합니다. 본 논문에서는 이러한 문제를 심층적으로 분석하고 새로운 프레임워크와 정교한 최적화 전략을 제안합니다. 구체적으로, 우리는 다양한 어댑터가 서로 다른 작업에서 뛰어난 성능을 보인다는 관찰에 기반하여 전역 뷰에서 컨텍스트 정보를 추출하기 위해 어댑터 혼합 방식을 사용합니다. 지역 패치에 관해서는 학습 가능한 쿼리 임베딩을 도입하여 이미지 토큰 수를 줄이고, 사용자 질문과 가장 관련이 중요한 토큰들은 유사도 기반 선택기를 통해 추가로 선별합니다. 우리의 실험 결과는 '적을수록 더 많다'는 패턴을 보여주는데, 더 적지만 더 유익한 지역 이미지 토큰을 사용함으로써 성능이 향상되는 것을 입증합니다. 또한, 전역 마이닝 블록과 지역 압축 블록을 동시에 종단 간(end-to-end)으로 학습시키는 것이 최적의 결과를 내지 못한다는 점이 중요한 도전 과제로 남아 있습니다. 따라서 우리는 전역과 지역 측면 간 균형 잡힌 학습을 보장하기 위해 교대 학습 방식을 제안합니다. 마지막으로, 이미지 디테일에 대한 높은 요구 사항을 가진 도전적인 데이터셋을 도입하여 지역 압축 계층의 학습을 강화합니다. 제안된 방법은 정교한 작업, 지역 이미지 압축, 전역 전문가 혼합을 특징으로 하는 LMM(SliME)으로 명명되었으며, 단 200만 개의 학습 데이터로 다양한 벤치마크에서 선도적인 성능을 달성합니다.
English
Seeing clearly with high resolution is a foundation of Large Multimodal
Models (LMMs), which has been proven to be vital for visual perception and
reasoning. Existing works usually employ a straightforward resolution upscaling
method, where the image consists of global and local branches, with the latter
being the sliced image patches but resized to the same resolution as the
former. This means that higher resolution requires more local patches,
resulting in exorbitant computational expenses, and meanwhile, the dominance of
local image tokens may diminish the global context. In this paper, we dive into
the problems and propose a new framework as well as an elaborate optimization
strategy. Specifically, we extract contextual information from the global view
using a mixture of adapters, based on the observation that different adapters
excel at different tasks. With regard to local patches, learnable query
embeddings are introduced to reduce image tokens, the most important tokens
accounting for the user question will be further selected by a similarity-based
selector. Our empirical results demonstrate a `less is more' pattern, where
utilizing fewer but more informative local image tokens leads to
improved performance. Besides, a significant challenge lies in the training
strategy, as simultaneous end-to-end training of the global mining block and
local compression block does not yield optimal results. We thus advocate for an
alternating training way, ensuring balanced learning between global and local
aspects. Finally, we also introduce a challenging dataset with high
requirements for image detail, enhancing the training of the local compression
layer. The proposed method, termed LMM with Sophisticated Tasks, Local image
compression, and Mixture of global Experts (SliME), achieves leading
performance across various benchmarks with only 2 million training data.Summary
AI-Generated Summary