ChatPaper.aiChatPaper

Groma: Gelokaliseerde visuele tokenisatie voor het verankeren van multimodale grote taalmodellen

Groma: Localized Visual Tokenization for Grounding Multimodal Large Language Models

April 19, 2024
Auteurs: Chuofan Ma, Yi Jiang, Jiannan Wu, Zehuan Yuan, Xiaojuan Qi
cs.AI

Samenvatting

We introduceren Groma, een Multimodal Large Language Model (MLLM) met een verankerd en fijnmazig visueel waarnemingsvermogen. Naast het holistisch begrijpen van afbeeldingen, is Groma bedreven in taken op regioniveau, zoals het beschrijven van regio's en visuele verankering. Deze mogelijkheden zijn gebouwd op een gelokaliseerd visueel tokenisatiemechanisme, waarbij een afbeeldingsinvoer wordt opgedeeld in interessegebieden en vervolgens wordt gecodeerd in regiokens. Door regiokens te integreren in gebruikersinstructies en modelreacties, maken we het Groma naadloos mogelijk om door de gebruiker gespecificeerde regio-invoeren te begrijpen en zijn tekstuele uitvoer aan afbeeldingen te verankeren. Daarnaast hebben we, om de verankerde chatmogelijkheid van Groma te verbeteren, een visueel verankerde instructiedataset samengesteld door gebruik te maken van de krachtige GPT-4V en visuele promptingtechnieken. In vergelijking met MLLM's die vertrouwen op het taalmodel of een externe module voor lokalisatie, toont Groma consistent superieure prestaties in standaard referentie- en verankeringsbenchmarks, wat de voordelen benadrukt van het inbedden van lokalisatie in beeldtokenisatie. Projectpagina: https://groma-mllm.github.io/.
English
We introduce Groma, a Multimodal Large Language Model (MLLM) with grounded and fine-grained visual perception ability. Beyond holistic image understanding, Groma is adept at region-level tasks such as region captioning and visual grounding. Such capabilities are built upon a localized visual tokenization mechanism, where an image input is decomposed into regions of interest and subsequently encoded into region tokens. By integrating region tokens into user instructions and model responses, we seamlessly enable Groma to understand user-specified region inputs and ground its textual output to images. Besides, to enhance the grounded chat ability of Groma, we curate a visually grounded instruction dataset by leveraging the powerful GPT-4V and visual prompting techniques. Compared with MLLMs that rely on the language model or external module for localization, Groma consistently demonstrates superior performances in standard referring and grounding benchmarks, highlighting the advantages of embedding localization into image tokenization. Project page: https://groma-mllm.github.io/.
PDF312February 8, 2026