Introducción del Token de Percepción Visual en el Modelo de Lenguaje Multimodal de Gran Escala
Introducing Visual Perception Token into Multimodal Large Language Model
February 24, 2025
Autores: Runpeng Yu, Xinyin Ma, Xinchao Wang
cs.AI
Resumen
Para utilizar la información visual, el Modelo de Lenguaje Multimodal de Gran Escala (MLLM, por sus siglas en inglés) depende del proceso de percepción de su codificador visual. La integridad y precisión de la percepción visual influyen significativamente en la exactitud del razonamiento espacial, la comprensión detallada y otras tareas. Sin embargo, el MLLM aún carece de la capacidad autónoma para controlar sus propios procesos de percepción visual, por ejemplo, revisar selectivamente regiones específicas de una imagen o enfocarse en información relacionada con categorías de objetos específicas. En este trabajo, proponemos el concepto de Token de Percepción Visual, con el objetivo de dotar al MLLM de un mecanismo para controlar sus procesos de percepción visual. Diseñamos dos tipos de Tokens de Percepción Visual, denominados Token de Selección de Región y Token de Recodificación Visual. Los MLLM generan estos tokens de manera autónoma, al igual que generan texto, y los utilizan para desencadenar acciones adicionales de percepción visual. El Token de Selección de Región identifica explícitamente regiones específicas en una imagen que requieren una percepción adicional, mientras que el Token de Recodificación Visual utiliza sus estados ocultos como señales de control para guiar procesos adicionales de percepción visual. Experimentos extensos demuestran las ventajas de estos tokens en el manejo del razonamiento espacial, la mejora de la comprensión detallada y otras tareas. En promedio, la introducción de los Tokens de Percepción Visual mejora el rendimiento de un modelo de 2B en un 23.6\%, aumentando su puntuación de 0.572 a 0.708, e incluso supera a un modelo de 7B parámetros en un 13.4\% (de 0.624). Por favor, visite nuestro repositorio en https://github.com/yu-rp/VisualPerceptionToken.
English
To utilize visual information, Multimodal Large Language Model (MLLM) relies
on the perception process of its vision encoder. The completeness and accuracy
of visual perception significantly influence the precision of spatial
reasoning, fine-grained understanding, and other tasks. However, MLLM still
lacks the autonomous capability to control its own visual perception processes,
for example, selectively reviewing specific regions of an image or focusing on
information related to specific object categories. In this work, we propose the
concept of Visual Perception Token, aiming to empower MLLM with a mechanism to
control its visual perception processes. We design two types of Visual
Perception Tokens, termed the Region Selection Token and the Vision Re-Encoding
Token. MLLMs autonomously generate these tokens, just as they generate text,
and use them to trigger additional visual perception actions. The Region
Selection Token explicitly identifies specific regions in an image that require
further perception, while the Vision Re-Encoding Token uses its hidden states
as control signals to guide additional visual perception processes. Extensive
experiments demonstrate the advantages of these tokens in handling spatial
reasoning, improving fine-grained understanding, and other tasks. On average,
the introduction of Visual Perception Tokens improves the performance of a 2B
model by 23.6\%, increasing its score from 0.572 to 0.708, and even outperforms
a 7B parameter model by 13.4\% (from 0.624). Please check out our repo
https://github.com/yu-rp/VisualPerceptionTokenSummary
AI-Generated Summary