Introduzindo o Token de Percepção Visual no Modelo de Linguagem Multimodal de Grande Escala
Introducing Visual Perception Token into Multimodal Large Language Model
February 24, 2025
Autores: Runpeng Yu, Xinyin Ma, Xinchao Wang
cs.AI
Resumo
Para utilizar informações visuais, o Modelo de Linguagem Multimodal de Grande Escala (MLLM) depende do processo de percepção de seu codificador visual. A completude e a precisão da percepção visual influenciam significativamente a exatidão do raciocínio espacial, da compreensão detalhada e de outras tarefas. No entanto, o MLLM ainda carece da capacidade autônoma de controlar seus próprios processos de percepção visual, por exemplo, revisar seletivamente regiões específicas de uma imagem ou focar em informações relacionadas a categorias específicas de objetos. Neste trabalho, propomos o conceito de Token de Percepção Visual, com o objetivo de capacitar o MLLM com um mecanismo para controlar seus processos de percepção visual. Projetamos dois tipos de Tokens de Percepção Visual, denominados Token de Seleção de Região e Token de Recodificação Visual. Os MLLMs geram esses tokens de forma autônoma, assim como geram texto, e os utilizam para acionar ações adicionais de percepção visual. O Token de Seleção de Região identifica explicitamente regiões específicas em uma imagem que requerem uma percepção adicional, enquanto o Token de Recodificação Visual utiliza seus estados ocultos como sinais de controle para orientar processos adicionais de percepção visual. Experimentos extensivos demonstram as vantagens desses tokens no tratamento do raciocínio espacial, na melhoria da compreensão detalhada e em outras tarefas. Em média, a introdução dos Tokens de Percepção Visual melhora o desempenho de um modelo de 2B em 23,6%, aumentando sua pontuação de 0,572 para 0,708, e até supera um modelo de 7B parâmetros em 13,4% (de 0,624). Confira nosso repositório em https://github.com/yu-rp/VisualPerceptionToken.
English
To utilize visual information, Multimodal Large Language Model (MLLM) relies
on the perception process of its vision encoder. The completeness and accuracy
of visual perception significantly influence the precision of spatial
reasoning, fine-grained understanding, and other tasks. However, MLLM still
lacks the autonomous capability to control its own visual perception processes,
for example, selectively reviewing specific regions of an image or focusing on
information related to specific object categories. In this work, we propose the
concept of Visual Perception Token, aiming to empower MLLM with a mechanism to
control its visual perception processes. We design two types of Visual
Perception Tokens, termed the Region Selection Token and the Vision Re-Encoding
Token. MLLMs autonomously generate these tokens, just as they generate text,
and use them to trigger additional visual perception actions. The Region
Selection Token explicitly identifies specific regions in an image that require
further perception, while the Vision Re-Encoding Token uses its hidden states
as control signals to guide additional visual perception processes. Extensive
experiments demonstrate the advantages of these tokens in handling spatial
reasoning, improving fine-grained understanding, and other tasks. On average,
the introduction of Visual Perception Tokens improves the performance of a 2B
model by 23.6\%, increasing its score from 0.572 to 0.708, and even outperforms
a 7B parameter model by 13.4\% (from 0.624). Please check out our repo
https://github.com/yu-rp/VisualPerceptionTokenSummary
AI-Generated Summary