ChatPaper.aiChatPaper

MG-LLaVA: 다중 세분성 시각적 명령어 튜닝을 향하여

MG-LLaVA: Towards Multi-Granularity Visual Instruction Tuning

June 25, 2024
저자: Xiangyu Zhao, Xiangtai Li, Haodong Duan, Haian Huang, Yining Li, Kai Chen, Hua Yang
cs.AI

초록

멀티모달 대형 언어 모델(MLLMs)은 다양한 시각 이해 작업에서 상당한 진전을 이루어 왔습니다. 그러나 이러한 모델의 대부분은 저해상도 이미지를 처리하는 데 제한되어 있어, 세부적인 시각 정보가 필요한 인지 작업에서의 효과성이 제한됩니다. 본 연구에서는 다중 세분성 시각 흐름(저해상도, 고해상도, 객체 중심 특징 포함)을 통합하여 모델의 시각 처리 능력을 향상시킨 혁신적인 MLLM인 MG-LLaVA를 제안합니다. 우리는 고해상도 시각 인코더를 추가로 통합하여 미세한 세부 사항을 포착하고, 이를 기본 시각 특징과 Conv-Gate 융합 네트워크를 통해 결합하는 방식을 제안합니다. 또한, 오프라인 탐지기로 식별된 바운딩 박스에서 도출된 객체 수준 특징을 통합하여 모델의 객체 인식 능력을 더욱 세밀하게 개선합니다. 공개된 멀티모달 데이터만을 사용하여 지시 튜닝을 통해 학습된 MG-LLaVA는 탁월한 인지 능력을 보여줍니다. 우리는 3.8B부터 34B까지 다양한 언어 인코더를 사용하여 MG-LLaVA를 구현하고, 모델의 성능을 포괄적으로 평가합니다. 다양한 벤치마크에서의 광범위한 평가 결과, MG-LLaVA는 동일한 파라미터 크기의 기존 MLLM들을 능가하며 뛰어난 효율성을 입증합니다. 코드는 https://github.com/PhoenixZ810/MG-LLaVA에서 확인할 수 있습니다.
English
Multi-modal large language models (MLLMs) have made significant strides in various visual understanding tasks. However, the majority of these models are constrained to process low-resolution images, which limits their effectiveness in perception tasks that necessitate detailed visual information. In our study, we present MG-LLaVA, an innovative MLLM that enhances the model's visual processing capabilities by incorporating a multi-granularity vision flow, which includes low-resolution, high-resolution, and object-centric features. We propose the integration of an additional high-resolution visual encoder to capture fine-grained details, which are then fused with base visual features through a Conv-Gate fusion network. To further refine the model's object recognition abilities, we incorporate object-level features derived from bounding boxes identified by offline detectors. Being trained solely on publicly available multimodal data through instruction tuning, MG-LLaVA demonstrates exceptional perception skills. We instantiate MG-LLaVA with a wide variety of language encoders, ranging from 3.8B to 34B, to evaluate the model's performance comprehensively. Extensive evaluations across multiple benchmarks demonstrate that MG-LLaVA outperforms existing MLLMs of comparable parameter sizes, showcasing its remarkable efficacy. The code will be available at https://github.com/PhoenixZ810/MG-LLaVA.

Summary

AI-Generated Summary

PDF191November 29, 2024