Introduzione del Token di Percezione Visiva nei Modelli Linguistici Multimodali di Grandi Dimensioni

Abstract

Per sfruttare le informazioni visive, il Multimodal Large Language Model (MLLM) si affida al processo di percezione del suo encoder visivo. La completezza e l'accuratezza della percezione visiva influenzano significativamente la precisione del ragionamento spaziale, della comprensione fine e di altre attività. Tuttavia, l'MLLM manca ancora della capacità autonoma di controllare i propri processi di percezione visiva, ad esempio, rivedere selettivamente regioni specifiche di un'immagine o concentrarsi su informazioni relative a categorie specifiche di oggetti. In questo lavoro, proponiamo il concetto di Visual Perception Token, con l'obiettivo di dotare l'MLLM di un meccanismo per controllare i suoi processi di percezione visiva. Progettiamo due tipi di Visual Perception Token, denominati Region Selection Token e Vision Re-Encoding Token. Gli MLLM generano autonomamente questi token, proprio come generano testo, e li utilizzano per attivare azioni aggiuntive di percezione visiva. Il Region Selection Token identifica esplicitamente regioni specifiche di un'immagine che richiedono un'ulteriore percezione, mentre il Vision Re-Encoding Token utilizza i suoi stati nascosti come segnali di controllo per guidare ulteriori processi di percezione visiva. Esperimenti estesi dimostrano i vantaggi di questi token nella gestione del ragionamento spaziale, nel miglioramento della comprensione fine e in altre attività. In media, l'introduzione dei Visual Perception Token migliora le prestazioni di un modello da 2B del 23,6%, aumentando il suo punteggio da 0,572 a 0,708, e supera persino un modello da 7B parametri del 13,4% (da 0,624). Consultate il nostro repository all'indirizzo https://github.com/yu-rp/VisualPerceptionToken.

English

To utilize visual information, Multimodal Large Language Model (MLLM) relies on the perception process of its vision encoder. The completeness and accuracy of visual perception significantly influence the precision of spatial reasoning, fine-grained understanding, and other tasks. However, MLLM still lacks the autonomous capability to control its own visual perception processes, for example, selectively reviewing specific regions of an image or focusing on information related to specific object categories. In this work, we propose the concept of Visual Perception Token, aiming to empower MLLM with a mechanism to control its visual perception processes. We design two types of Visual Perception Tokens, termed the Region Selection Token and the Vision Re-Encoding Token. MLLMs autonomously generate these tokens, just as they generate text, and use them to trigger additional visual perception actions. The Region Selection Token explicitly identifies specific regions in an image that require further perception, while the Vision Re-Encoding Token uses its hidden states as control signals to guide additional visual perception processes. Extensive experiments demonstrate the advantages of these tokens in handling spatial reasoning, improving fine-grained understanding, and other tasks. On average, the introduction of Visual Perception Tokens improves the performance of a 2B model by 23.6\%, increasing its score from 0.572 to 0.708, and even outperforms a 7B parameter model by 13.4\% (from 0.624). Please check out our repo https://github.com/yu-rp/VisualPerceptionToken

Introduzione del Token di Percezione Visiva nei Modelli Linguistici Multimodali di Grandi Dimensioni

Introducing Visual Perception Token into Multimodal Large Language Model

Abstract

Support