ChatPaper.aiChatPaper

Einführung von Visual Perception Token in Multimodale Large Language Models

Introducing Visual Perception Token into Multimodal Large Language Model

February 24, 2025
Autoren: Runpeng Yu, Xinyin Ma, Xinchao Wang
cs.AI

Zusammenfassung

Um visuelle Informationen zu nutzen, verlässt sich ein Multimodales Großes Sprachmodell (MLLM) auf den Wahrnehmungsprozess seines Vision-Encoders. Die Vollständigkeit und Genauigkeit der visuellen Wahrnehmung beeinflussen maßgeblich die Präzision von räumlichem Denken, feinkörnigem Verständnis und anderen Aufgaben. Allerdings fehlt MLLM noch die autonome Fähigkeit, seine eigenen visuellen Wahrnehmungsprozesse zu steuern, beispielsweise spezifische Bildregionen selektiv zu überprüfen oder sich auf Informationen bestimmter Objektkategorien zu konzentrieren. In dieser Arbeit schlagen wir das Konzept des Visuellen Wahrnehmungs-Tokens vor, mit dem Ziel, MLLM mit einem Mechanismus zur Steuerung seiner visuellen Wahrnehmungsprozesse auszustatten. Wir entwerfen zwei Arten von Visuellen Wahrnehmungs-Tokens, den Regionenauswahl-Token und den Vision-Re-Encoding-Token. MLLMs generieren diese Tokens autonom, genauso wie sie Text generieren, und verwenden sie, um zusätzliche visuelle Wahrnehmungsaktionen auszulösen. Der Regionenauswahl-Token identifiziert explizit spezifische Regionen in einem Bild, die eine weitere Wahrnehmung erfordern, während der Vision-Re-Encoding-Token seine verborgenen Zustände als Steuersignale nutzt, um zusätzliche visuelle Wahrnehmungsprozesse zu leiten. Umfangreiche Experimente zeigen die Vorteile dieser Tokens bei der Bewältigung von räumlichem Denken, der Verbesserung des feinkörnigen Verständnisses und anderen Aufgaben. Im Durchschnitt verbessert die Einführung von Visuellen Wahrnehmungs-Tokens die Leistung eines 2B-Modells um 23,6\%, erhöht seine Punktzahl von 0,572 auf 0,708 und übertrifft sogar ein 7B-Parameter-Modell um 13,4\% (von 0,624). Bitte besuchen Sie unser Repo https://github.com/yu-rp/VisualPerceptionToken.
English
To utilize visual information, Multimodal Large Language Model (MLLM) relies on the perception process of its vision encoder. The completeness and accuracy of visual perception significantly influence the precision of spatial reasoning, fine-grained understanding, and other tasks. However, MLLM still lacks the autonomous capability to control its own visual perception processes, for example, selectively reviewing specific regions of an image or focusing on information related to specific object categories. In this work, we propose the concept of Visual Perception Token, aiming to empower MLLM with a mechanism to control its visual perception processes. We design two types of Visual Perception Tokens, termed the Region Selection Token and the Vision Re-Encoding Token. MLLMs autonomously generate these tokens, just as they generate text, and use them to trigger additional visual perception actions. The Region Selection Token explicitly identifies specific regions in an image that require further perception, while the Vision Re-Encoding Token uses its hidden states as control signals to guide additional visual perception processes. Extensive experiments demonstrate the advantages of these tokens in handling spatial reasoning, improving fine-grained understanding, and other tasks. On average, the introduction of Visual Perception Tokens improves the performance of a 2B model by 23.6\%, increasing its score from 0.572 to 0.708, and even outperforms a 7B parameter model by 13.4\% (from 0.624). Please check out our repo https://github.com/yu-rp/VisualPerceptionToken

Summary

AI-Generated Summary

PDF152February 26, 2025