LEGO: 언어 강화 다중 모달 접지 모델
LEGO:Language Enhanced Multi-modal Grounding Model
January 11, 2024
저자: Zhaowei Li, Qi Xu, Dong Zhang, Hang Song, Yiqing Cai, Qi Qi, Ran Zhou, Junting Pan, Zefeng Li, Van Tu Vu, Zhida Huang, Tao Wang
cs.AI
초록
멀티모달 대형 언어 모델은 다양한 모달리티에서의 여러 작업에서 인상적인 성능을 보여주고 있습니다. 그러나 기존의 멀티모달 모델은 주로 각 모달리티 내의 전역 정보를 포착하는 데 중점을 두면서, 모달리티 간의 지역 정보를 인식하는 중요성을 간과하고 있습니다. 결과적으로, 이러한 모델은 입력 데이터의 세부 사항을 효과적으로 이해하는 능력이 부족하여, 더 미묘한 이해를 요구하는 작업에서의 성능이 제한됩니다. 이러한 한계를 해결하기 위해, 여러 모달리티에 걸친 세부적인 이해를 가능하게 하는 모델을 개발할 필요가 있습니다. 이를 통해 다양한 작업에 대한 적용 가능성을 향상시킬 수 있습니다. 본 논문에서는 언어 강화 멀티모달 그라운딩 모델인 LEGO를 제안합니다. 다른 멀티모달 모델과 마찬가지로 전역 정보를 포착하는 것 이상으로, 제안된 모델은 입력 내의 지역 정보에 대한 세부적인 이해를 요구하는 작업에서 탁월한 성능을 보입니다. 이 모델은 이미지 내의 특정 영역이나 비디오 내의 특정 순간을 정확하게 식별하고 위치를 파악할 수 있습니다. 이러한 목표를 달성하기 위해, 우리는 다양한 데이터셋 구축 파이프라인을 설계하여 모델 학습을 위한 멀티모달, 다중 세분성 데이터셋을 생성했습니다. 모델의 코드, 데이터셋, 데모는 https://github.com/lzw-lzw/LEGO에서 확인할 수 있습니다.
English
Multi-modal large language models have demonstrated impressive performance
across various tasks in different modalities. However, existing multi-modal
models primarily emphasize capturing global information within each modality
while neglecting the importance of perceiving local information across
modalities. Consequently, these models lack the ability to effectively
understand the fine-grained details of input data, limiting their performance
in tasks that require a more nuanced understanding. To address this limitation,
there is a compelling need to develop models that enable fine-grained
understanding across multiple modalities, thereby enhancing their applicability
to a wide range of tasks. In this paper, we propose LEGO, a language enhanced
multi-modal grounding model. Beyond capturing global information like other
multi-modal models, our proposed model excels at tasks demanding a detailed
understanding of local information within the input. It demonstrates precise
identification and localization of specific regions in images or moments in
videos. To achieve this objective, we design a diversified dataset construction
pipeline, resulting in a multi-modal, multi-granularity dataset for model
training. The code, dataset, and demo of our model can be found at https:
//github.com/lzw-lzw/LEGO.