Groma: Tokenização Visual Localizada para Aterramento de Modelos de Linguagem Multimodais de Grande Escala
Groma: Localized Visual Tokenization for Grounding Multimodal Large Language Models
April 19, 2024
Autores: Chuofan Ma, Yi Jiang, Jiannan Wu, Zehuan Yuan, Xiaojuan Qi
cs.AI
Resumo
Apresentamos o Groma, um Modelo de Linguagem Multimodal de Grande Escala (MLLM) com capacidade de percepção visual fundamentada e detalhada. Além da compreensão holística de imagens, o Groma é especializado em tarefas em nível de região, como descrição de regiões e fundamentação visual. Essas capacidades são construídas sobre um mecanismo de tokenização visual localizada, onde uma imagem de entrada é decomposta em regiões de interesse e subsequentemente codificada em tokens de região. Ao integrar tokens de região nas instruções do usuário e nas respostas do modelo, permitimos que o Groma compreenda entradas de região especificadas pelo usuário e fundamenta sua saída textual em imagens. Além disso, para aprimorar a capacidade de chat fundamentado do Groma, criamos um conjunto de dados de instruções visualmente fundamentadas, utilizando o poderoso GPT-4V e técnicas de prompt visual. Em comparação com MLLMs que dependem do modelo de linguagem ou de módulos externos para localização, o Groma demonstra consistentemente desempenhos superiores em benchmarks padrão de referência e fundamentação, destacando as vantagens de incorporar a localização na tokenização de imagens. Página do projeto: https://groma-mllm.github.io/.
English
We introduce Groma, a Multimodal Large Language Model (MLLM) with grounded
and fine-grained visual perception ability. Beyond holistic image
understanding, Groma is adept at region-level tasks such as region captioning
and visual grounding. Such capabilities are built upon a localized visual
tokenization mechanism, where an image input is decomposed into regions of
interest and subsequently encoded into region tokens. By integrating region
tokens into user instructions and model responses, we seamlessly enable Groma
to understand user-specified region inputs and ground its textual output to
images. Besides, to enhance the grounded chat ability of Groma, we curate a
visually grounded instruction dataset by leveraging the powerful GPT-4V and
visual prompting techniques. Compared with MLLMs that rely on the language
model or external module for localization, Groma consistently demonstrates
superior performances in standard referring and grounding benchmarks,
highlighting the advantages of embedding localization into image tokenization.
Project page: https://groma-mllm.github.io/.