ChatPaper.aiChatPaper

Groma: Tokenização Visual Localizada para Aterramento de Modelos de Linguagem Multimodais de Grande Escala

Groma: Localized Visual Tokenization for Grounding Multimodal Large Language Models

April 19, 2024
Autores: Chuofan Ma, Yi Jiang, Jiannan Wu, Zehuan Yuan, Xiaojuan Qi
cs.AI

Resumo

Apresentamos o Groma, um Modelo de Linguagem Multimodal de Grande Escala (MLLM) com capacidade de percepção visual fundamentada e detalhada. Além da compreensão holística de imagens, o Groma é especializado em tarefas em nível de região, como descrição de regiões e fundamentação visual. Essas capacidades são construídas sobre um mecanismo de tokenização visual localizada, onde uma imagem de entrada é decomposta em regiões de interesse e subsequentemente codificada em tokens de região. Ao integrar tokens de região nas instruções do usuário e nas respostas do modelo, permitimos que o Groma compreenda entradas de região especificadas pelo usuário e fundamenta sua saída textual em imagens. Além disso, para aprimorar a capacidade de chat fundamentado do Groma, criamos um conjunto de dados de instruções visualmente fundamentadas, utilizando o poderoso GPT-4V e técnicas de prompt visual. Em comparação com MLLMs que dependem do modelo de linguagem ou de módulos externos para localização, o Groma demonstra consistentemente desempenhos superiores em benchmarks padrão de referência e fundamentação, destacando as vantagens de incorporar a localização na tokenização de imagens. Página do projeto: https://groma-mllm.github.io/.
English
We introduce Groma, a Multimodal Large Language Model (MLLM) with grounded and fine-grained visual perception ability. Beyond holistic image understanding, Groma is adept at region-level tasks such as region captioning and visual grounding. Such capabilities are built upon a localized visual tokenization mechanism, where an image input is decomposed into regions of interest and subsequently encoded into region tokens. By integrating region tokens into user instructions and model responses, we seamlessly enable Groma to understand user-specified region inputs and ground its textual output to images. Besides, to enhance the grounded chat ability of Groma, we curate a visually grounded instruction dataset by leveraging the powerful GPT-4V and visual prompting techniques. Compared with MLLMs that rely on the language model or external module for localization, Groma consistently demonstrates superior performances in standard referring and grounding benchmarks, highlighting the advantages of embedding localization into image tokenization. Project page: https://groma-mllm.github.io/.
PDF312December 15, 2024