ChatPaper.aiChatPaper

Groma: 멀티모달 대형 언어 모델의 접지를 위한 지역화된 시각적 토큰화

Groma: Localized Visual Tokenization for Grounding Multimodal Large Language Models

April 19, 2024
저자: Chuofan Ma, Yi Jiang, Jiannan Wu, Zehuan Yuan, Xiaojuan Qi
cs.AI

초록

우리는 정교하고 세밀한 시각 인식 능력을 갖춘 멀티모달 대형 언어 모델(MLLM)인 Groma를 소개합니다. Groma는 전체적인 이미지 이해를 넘어, 영역 캡셔닝(region captioning) 및 시각적 그라운딩(visual grounding)과 같은 영역 수준의 작업에 능숙합니다. 이러한 능력은 지역화된 시각 토큰화 메커니즘에 기반을 두고 있으며, 여기서 이미지 입력은 관심 영역으로 분해된 후 영역 토큰으로 인코딩됩니다. 영역 토큰을 사용자 지시 및 모델 응답에 통합함으로써, Groma가 사용자가 지정한 영역 입력을 이해하고 텍스트 출력을 이미지에 정확히 연결할 수 있도록 합니다. 또한, Groma의 그라운디드 채팅 능력을 강화하기 위해, GPT-4V와 시각적 프롬프팅 기술을 활용하여 시각적으로 그라운디드된 명령어 데이터셋을 구축했습니다. 언어 모델이나 외부 모듈에 의존하여 지역화를 수행하는 다른 MLLM들과 비교했을 때, Groma는 표준 참조(referring) 및 그라운딩 벤치마크에서 지속적으로 우수한 성능을 보여주며, 지역화를 이미지 토큰화에 내재화하는 것의 장점을 강조합니다. 프로젝트 페이지: https://groma-mllm.github.io/.
English
We introduce Groma, a Multimodal Large Language Model (MLLM) with grounded and fine-grained visual perception ability. Beyond holistic image understanding, Groma is adept at region-level tasks such as region captioning and visual grounding. Such capabilities are built upon a localized visual tokenization mechanism, where an image input is decomposed into regions of interest and subsequently encoded into region tokens. By integrating region tokens into user instructions and model responses, we seamlessly enable Groma to understand user-specified region inputs and ground its textual output to images. Besides, to enhance the grounded chat ability of Groma, we curate a visually grounded instruction dataset by leveraging the powerful GPT-4V and visual prompting techniques. Compared with MLLMs that rely on the language model or external module for localization, Groma consistently demonstrates superior performances in standard referring and grounding benchmarks, highlighting the advantages of embedding localization into image tokenization. Project page: https://groma-mllm.github.io/.

Summary

AI-Generated Summary

PDF322December 15, 2024