Het introduceren van visuele perceptie-tokens in multimodale grote taalmodellen
Introducing Visual Perception Token into Multimodal Large Language Model
February 24, 2025
Auteurs: Runpeng Yu, Xinyin Ma, Xinchao Wang
cs.AI
Samenvatting
Om visuele informatie te benutten, vertrouwt het Multimodal Large Language Model (MLLM) op het waarnemingsproces van zijn visuele encoder. De volledigheid en nauwkeurigheid van de visuele waarneming hebben een aanzienlijke invloed op de precisie van ruimtelijk redeneren, gedetailleerd begrip en andere taken. MLLM beschikt echter nog niet over de autonome capaciteit om zijn eigen visuele waarnemingsprocessen te beheersen, zoals het selectief bekijken van specifieke regio's in een afbeelding of het focussen op informatie gerelateerd aan specifieke objectcategorieën. In dit werk introduceren we het concept van de Visual Perception Token, met als doel MLLM uit te rusten met een mechanisme om zijn visuele waarnemingsprocessen te controleren. We ontwerpen twee typen Visual Perception Tokens, genaamd de Region Selection Token en de Vision Re-Encoding Token. MLLM's genereren deze tokens autonoom, net zoals ze tekst genereren, en gebruiken ze om aanvullende visuele waarnemingsacties te activeren. De Region Selection Token identificeert expliciet specifieke regio's in een afbeelding die verdere waarneming vereisen, terwijl de Vision Re-Encoding Token zijn verborgen toestanden gebruikt als controlesignalen om aanvullende visuele waarnemingsprocessen te sturen. Uitgebreide experimenten tonen de voordelen van deze tokens aan bij het omgaan met ruimtelijk redeneren, het verbeteren van gedetailleerd begrip en andere taken. Gemiddeld verbetert de introductie van Visual Perception Tokens de prestaties van een 2B-model met 23,6%, waarbij de score stijgt van 0,572 naar 0,708, en overtreft het zelfs een 7B-parametermodel met 13,4% (van 0,624). Bekijk onze repo op https://github.com/yu-rp/VisualPerceptionToken.
English
To utilize visual information, Multimodal Large Language Model (MLLM) relies
on the perception process of its vision encoder. The completeness and accuracy
of visual perception significantly influence the precision of spatial
reasoning, fine-grained understanding, and other tasks. However, MLLM still
lacks the autonomous capability to control its own visual perception processes,
for example, selectively reviewing specific regions of an image or focusing on
information related to specific object categories. In this work, we propose the
concept of Visual Perception Token, aiming to empower MLLM with a mechanism to
control its visual perception processes. We design two types of Visual
Perception Tokens, termed the Region Selection Token and the Vision Re-Encoding
Token. MLLMs autonomously generate these tokens, just as they generate text,
and use them to trigger additional visual perception actions. The Region
Selection Token explicitly identifies specific regions in an image that require
further perception, while the Vision Re-Encoding Token uses its hidden states
as control signals to guide additional visual perception processes. Extensive
experiments demonstrate the advantages of these tokens in handling spatial
reasoning, improving fine-grained understanding, and other tasks. On average,
the introduction of Visual Perception Tokens improves the performance of a 2B
model by 23.6\%, increasing its score from 0.572 to 0.708, and even outperforms
a 7B parameter model by 13.4\% (from 0.624). Please check out our repo
https://github.com/yu-rp/VisualPerceptionTokenSummary
AI-Generated Summary