Introduzindo o Token de Percepção Visual no Modelo de Linguagem Multimodal de Grande Escala

Resumo

Para utilizar informações visuais, o Modelo de Linguagem Multimodal de Grande Escala (MLLM) depende do processo de percepção de seu codificador visual. A completude e a precisão da percepção visual influenciam significativamente a exatidão do raciocínio espacial, da compreensão detalhada e de outras tarefas. No entanto, o MLLM ainda carece da capacidade autônoma de controlar seus próprios processos de percepção visual, por exemplo, revisar seletivamente regiões específicas de uma imagem ou focar em informações relacionadas a categorias específicas de objetos. Neste trabalho, propomos o conceito de Token de Percepção Visual, com o objetivo de capacitar o MLLM com um mecanismo para controlar seus processos de percepção visual. Projetamos dois tipos de Tokens de Percepção Visual, denominados Token de Seleção de Região e Token de Recodificação Visual. Os MLLMs geram esses tokens de forma autônoma, assim como geram texto, e os utilizam para acionar ações adicionais de percepção visual. O Token de Seleção de Região identifica explicitamente regiões específicas em uma imagem que requerem uma percepção adicional, enquanto o Token de Recodificação Visual utiliza seus estados ocultos como sinais de controle para orientar processos adicionais de percepção visual. Experimentos extensivos demonstram as vantagens desses tokens no tratamento do raciocínio espacial, na melhoria da compreensão detalhada e em outras tarefas. Em média, a introdução dos Tokens de Percepção Visual melhora o desempenho de um modelo de 2B em 23,6%, aumentando sua pontuação de 0,572 para 0,708, e até supera um modelo de 7B parâmetros em 13,4% (de 0,624). Confira nosso repositório em https://github.com/yu-rp/VisualPerceptionToken.

English

To utilize visual information, Multimodal Large Language Model (MLLM) relies on the perception process of its vision encoder. The completeness and accuracy of visual perception significantly influence the precision of spatial reasoning, fine-grained understanding, and other tasks. However, MLLM still lacks the autonomous capability to control its own visual perception processes, for example, selectively reviewing specific regions of an image or focusing on information related to specific object categories. In this work, we propose the concept of Visual Perception Token, aiming to empower MLLM with a mechanism to control its visual perception processes. We design two types of Visual Perception Tokens, termed the Region Selection Token and the Vision Re-Encoding Token. MLLMs autonomously generate these tokens, just as they generate text, and use them to trigger additional visual perception actions. The Region Selection Token explicitly identifies specific regions in an image that require further perception, while the Vision Re-Encoding Token uses its hidden states as control signals to guide additional visual perception processes. Extensive experiments demonstrate the advantages of these tokens in handling spatial reasoning, improving fine-grained understanding, and other tasks. On average, the introduction of Visual Perception Tokens improves the performance of a 2B model by 23.6\%, increasing its score from 0.572 to 0.708, and even outperforms a 7B parameter model by 13.4\% (from 0.624). Please check out our repo https://github.com/yu-rp/VisualPerceptionToken

Introduzindo o Token de Percepção Visual no Modelo de Linguagem Multimodal de Grande Escala

Introducing Visual Perception Token into Multimodal Large Language Model

Resumo

Support