Introduzione del Token di Percezione Visiva nei Modelli Linguistici Multimodali di Grandi Dimensioni
Introducing Visual Perception Token into Multimodal Large Language Model
February 24, 2025
Autori: Runpeng Yu, Xinyin Ma, Xinchao Wang
cs.AI
Abstract
Per sfruttare le informazioni visive, il Multimodal Large Language Model (MLLM) si affida al processo di percezione del suo encoder visivo. La completezza e l'accuratezza della percezione visiva influenzano significativamente la precisione del ragionamento spaziale, della comprensione fine e di altre attività. Tuttavia, l'MLLM manca ancora della capacità autonoma di controllare i propri processi di percezione visiva, ad esempio, rivedere selettivamente regioni specifiche di un'immagine o concentrarsi su informazioni relative a categorie specifiche di oggetti. In questo lavoro, proponiamo il concetto di Visual Perception Token, con l'obiettivo di dotare l'MLLM di un meccanismo per controllare i suoi processi di percezione visiva. Progettiamo due tipi di Visual Perception Token, denominati Region Selection Token e Vision Re-Encoding Token. Gli MLLM generano autonomamente questi token, proprio come generano testo, e li utilizzano per attivare azioni aggiuntive di percezione visiva. Il Region Selection Token identifica esplicitamente regioni specifiche di un'immagine che richiedono un'ulteriore percezione, mentre il Vision Re-Encoding Token utilizza i suoi stati nascosti come segnali di controllo per guidare ulteriori processi di percezione visiva. Esperimenti estesi dimostrano i vantaggi di questi token nella gestione del ragionamento spaziale, nel miglioramento della comprensione fine e in altre attività. In media, l'introduzione dei Visual Perception Token migliora le prestazioni di un modello da 2B del 23,6%, aumentando il suo punteggio da 0,572 a 0,708, e supera persino un modello da 7B parametri del 13,4% (da 0,624). Consultate il nostro repository all'indirizzo https://github.com/yu-rp/VisualPerceptionToken.
English
To utilize visual information, Multimodal Large Language Model (MLLM) relies
on the perception process of its vision encoder. The completeness and accuracy
of visual perception significantly influence the precision of spatial
reasoning, fine-grained understanding, and other tasks. However, MLLM still
lacks the autonomous capability to control its own visual perception processes,
for example, selectively reviewing specific regions of an image or focusing on
information related to specific object categories. In this work, we propose the
concept of Visual Perception Token, aiming to empower MLLM with a mechanism to
control its visual perception processes. We design two types of Visual
Perception Tokens, termed the Region Selection Token and the Vision Re-Encoding
Token. MLLMs autonomously generate these tokens, just as they generate text,
and use them to trigger additional visual perception actions. The Region
Selection Token explicitly identifies specific regions in an image that require
further perception, while the Vision Re-Encoding Token uses its hidden states
as control signals to guide additional visual perception processes. Extensive
experiments demonstrate the advantages of these tokens in handling spatial
reasoning, improving fine-grained understanding, and other tasks. On average,
the introduction of Visual Perception Tokens improves the performance of a 2B
model by 23.6\%, increasing its score from 0.572 to 0.708, and even outperforms
a 7B parameter model by 13.4\% (from 0.624). Please check out our repo
https://github.com/yu-rp/VisualPerceptionToken