Meteor: 대규모 언어 및 비전 모델을 위한 Mamba 기반 근거 탐색
Meteor: Mamba-based Traversal of Rationale for Large Language and Vision Models
May 24, 2024
저자: Byung-Kwan Lee, Chae Won Kim, Beomchan Park, Yong Man Ro
cs.AI
초록
대규모 언어 및 시각 모델(LLVM)의 급속한 발전은 시각적 명령 튜닝의 진보에 의해 주도되어 왔습니다. 최근 오픈소스 LLVM은 고품질의 시각적 명령 튜닝 데이터셋을 구축하고, 추가적인 시각 인코더나 다중 컴퓨터 비전 모델을 활용하여 강력한 클로즈드소스 LLVM과의 성능 격차를 좁히고자 했습니다. 이러한 발전은 기본적인 이미지 이해, 상식 및 비물체 개념(예: 차트, 다이어그램, 기호, 표지판, 수학 문제)에 대한 실세계 지식, 복잡한 질문을 해결하기 위한 단계별 절차 등 다양한 역량을 위해 필요한 다면적 정보에 기인합니다. 이러한 다면적 정보를 바탕으로, 우리는 새로운 효율적인 LLVM인 Mamba 기반의 근거 탐색(Meteor)을 제안합니다. 이 모델은 다면적 근거를 활용하여 이해 및 답변 능력을 향상시킵니다. 풍부한 정보를 포함하는 긴 근거를 임베딩하기 위해, 우리는 선형 시간 복잡도로 순차 데이터를 처리할 수 있는 Mamba 아키텍처를 사용합니다. 우리는 근거의 효율적인 임베딩을 용이하게 하는 새로운 개념인 근거 탐색을 소개합니다. 이후, 백본 다중모달 언어 모델(MLM)은 근거의 도움을 받아 답변을 생성하도록 훈련됩니다. 이러한 단계를 통해, Meteor는 모델 크기를 확장하거나 추가적인 시각 인코더와 컴퓨터 비전 모델을 사용하지 않고도 다양한 역량을 요구하는 여러 평가 벤치마크에서 시각 언어 성능을 크게 개선합니다.
English
The rapid development of large language and vision models (LLVMs) has been
driven by advances in visual instruction tuning. Recently, open-source LLVMs
have curated high-quality visual instruction tuning datasets and utilized
additional vision encoders or multiple computer vision models in order to
narrow the performance gap with powerful closed-source LLVMs. These
advancements are attributed to multifaceted information required for diverse
capabilities, including fundamental image understanding, real-world knowledge
about common-sense and non-object concepts (e.g., charts, diagrams, symbols,
signs, and math problems), and step-by-step procedures for solving complex
questions. Drawing from the multifaceted information, we present a new
efficient LLVM, Mamba-based traversal of rationales (Meteor), which leverages
multifaceted rationale to enhance understanding and answering capabilities. To
embed lengthy rationales containing abundant information, we employ the Mamba
architecture, capable of processing sequential data with linear time
complexity. We introduce a new concept of traversal of rationale that
facilitates efficient embedding of rationale. Subsequently, the backbone
multimodal language model (MLM) is trained to generate answers with the aid of
rationale. Through these steps, Meteor achieves significant improvements in
vision language performances across multiple evaluation benchmarks requiring
diverse capabilities, without scaling up the model size or employing additional
vision encoders and computer vision models.Summary
AI-Generated Summary