SEA: MLLM에서 토큰 수준 시각-텍스트 통합을 위한 지도된 임베딩 정렬
SEA: Supervised Embedding Alignment for Token-Level Visual-Textual Integration in MLLMs
August 21, 2024
저자: Yuanyang Yin, Yaqi Zhao, Yajie Zhang, Ke Lin, Jiahao Wang, Xin Tao, Pengfei Wan, Di Zhang, Baoqun Yin, Wentao Zhang
cs.AI
초록
최근에는 다중 모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)이 현저한 지각 및 추론 능력을 보여주고 있으며, 일반적으로 Vision Encoder, Adapter 및 대형 언어 모델(LLM)로 구성됩니다. 어댑터는 시각 및 언어 구성 요소 간의 중요한 연결 다리 역할을 합니다. 그러나 이미지 수준의 감독을 사용하여 어댑터를 훈련하는 것은 종종 상당한 불일치를 초래하여 MLLM의 능력을 저하시키고 다중 모달 MLLM의 잠재력을 제한합니다. 이를 해결하기 위해 우리는 Supervised Embedding Alignment(SEA)을 소개합니다. 이는 CLIP와 같은 시각-언어 사전 훈련 모델을 활용하여 시각 토큰을 대형 언어 모델의 임베딩 공간과 대조적 학습을 통해 정렬하는 토큰 수준의 정렬 방법입니다. 이 접근 방식은 시각 및 언어 표현의 더 일관된 통합을 보장하며, 다중 모달 MLLM의 성능과 해석 가능성을 향상시키면서 그들의 본래 능력을 보존합니다. 광범위한 실험 결과 SEA가 효과적으로 MLLM을 개선하며, 특히 작은 모델의 경우 추가 데이터나 추론 계산을 추가하지 않습니다. SEA는 또한 다중 모달 시스템을 향상시키기 위한 보다 일반적이고 적응 가능한 솔루션을 개발하는 기초를 마련합니다.
English
Multimodal Large Language Models (MLLMs) have recently demonstrated
remarkable perceptual and reasoning abilities, typically comprising a Vision
Encoder, an Adapter, and a Large Language Model (LLM). The adapter serves as
the critical bridge between the visual and language components. However,
training adapters with image-level supervision often results in significant
misalignment, undermining the LLMs' capabilities and limiting the potential of
Multimodal LLMs. To address this, we introduce Supervised Embedding Alignment
(SEA), a token-level alignment method that leverages vision-language
pre-trained models, such as CLIP, to align visual tokens with the LLM's
embedding space through contrastive learning. This approach ensures a more
coherent integration of visual and language representations, enhancing the
performance and interpretability of multimodal LLMs while preserving their
inherent capabilities. Extensive experiments show that SEA effectively improves
MLLMs, particularly for smaller models, without adding extra data or inference
computation. SEA also lays the groundwork for developing more general and
adaptable solutions to enhance multimodal systems.Summary
AI-Generated Summary