Introduction du jeton de perception visuelle dans les modèles de langage multimodaux de grande taille
Introducing Visual Perception Token into Multimodal Large Language Model
February 24, 2025
Auteurs: Runpeng Yu, Xinyin Ma, Xinchao Wang
cs.AI
Résumé
Pour exploiter les informations visuelles, les Modèles de Langage Multimodaux de Grande Taille (MLLM) s'appuient sur le processus de perception de leur encodeur visuel. L'exhaustivité et la précision de la perception visuelle influencent significativement la justesse du raisonnement spatial, de la compréhension fine et d'autres tâches. Cependant, les MLLM manquent encore de la capacité autonome à contrôler leurs propres processus de perception visuelle, par exemple, en examinant sélectivement des régions spécifiques d'une image ou en se concentrant sur des informations liées à des catégories d'objets spécifiques. Dans ce travail, nous proposons le concept de Token de Perception Visuelle, visant à doter les MLLM d'un mécanisme pour contrôler leurs processus de perception visuelle. Nous concevons deux types de Tokens de Perception Visuelle, appelés Token de Sélection de Région et Token de Ré-Encodage Visuel. Les MLLM génèrent ces tokens de manière autonome, tout comme ils génèrent du texte, et les utilisent pour déclencher des actions supplémentaires de perception visuelle. Le Token de Sélection de Région identifie explicitement des régions spécifiques d'une image nécessitant une perception approfondie, tandis que le Token de Ré-Encodage Visuel utilise ses états cachés comme signaux de contrôle pour guider des processus supplémentaires de perception visuelle. Des expériences approfondies démontrent les avantages de ces tokens dans la gestion du raisonnement spatial, l'amélioration de la compréhension fine et d'autres tâches. En moyenne, l'introduction des Tokens de Perception Visuelle améliore les performances d'un modèle de 2B de 23,6\%, augmentant son score de 0,572 à 0,708, et surpasse même un modèle de 7B paramètres de 13,4\% (à partir de 0,624). Consultez notre dépôt https://github.com/yu-rp/VisualPerceptionToken.
English
To utilize visual information, Multimodal Large Language Model (MLLM) relies
on the perception process of its vision encoder. The completeness and accuracy
of visual perception significantly influence the precision of spatial
reasoning, fine-grained understanding, and other tasks. However, MLLM still
lacks the autonomous capability to control its own visual perception processes,
for example, selectively reviewing specific regions of an image or focusing on
information related to specific object categories. In this work, we propose the
concept of Visual Perception Token, aiming to empower MLLM with a mechanism to
control its visual perception processes. We design two types of Visual
Perception Tokens, termed the Region Selection Token and the Vision Re-Encoding
Token. MLLMs autonomously generate these tokens, just as they generate text,
and use them to trigger additional visual perception actions. The Region
Selection Token explicitly identifies specific regions in an image that require
further perception, while the Vision Re-Encoding Token uses its hidden states
as control signals to guide additional visual perception processes. Extensive
experiments demonstrate the advantages of these tokens in handling spatial
reasoning, improving fine-grained understanding, and other tasks. On average,
the introduction of Visual Perception Tokens improves the performance of a 2B
model by 23.6\%, increasing its score from 0.572 to 0.708, and even outperforms
a 7B parameter model by 13.4\% (from 0.624). Please check out our repo
https://github.com/yu-rp/VisualPerceptionTokenSummary
AI-Generated Summary