ChatPaper.aiChatPaper

Patch-as-Decodable-Token: Auf dem Weg zu vereinheitlichten multimodalen Vision-Aufgaben in MLLMs

Patch-as-Decodable-Token: Towards Unified Multi-Modal Vision Tasks in MLLMs

October 2, 2025
papers.authors: Yongyi Su, Haojie Zhang, Shijie Li, Nanqing Liu, Jingyi Liao, Junyi Pan, Yuan Liu, Xiaofen Xing, Chong Sun, Chen Li, Nancy F. Chen, Shuicheng Yan, Xulei Yang, Xun Xu
cs.AI

papers.abstract

Multimodale große Sprachmodelle (MLLMs) haben in den letzten Jahren rasante Fortschritte gemacht. Bestehende Ansätze für visuelle Aufgaben stützen sich jedoch oft auf indirekte Repräsentationen, wie beispielsweise die Generierung von Koordinaten als Text für die Detektion, was die Leistung einschränkt und dichte Vorhersageaufgaben wie die Segmentierung verhindert. Um diese Herausforderungen zu bewältigen, führen wir Patch-as-Decodable Token (PaDT) ein, ein einheitliches Paradigma, das MLLMs ermöglicht, sowohl textuelle als auch diverse visuelle Ausgaben direkt zu generieren. Kern von PaDT sind Visual Reference Tokens (VRTs), die aus visuellen Patch-Einbettungen von Anfragebildern abgeleitet und nahtlos mit den textuellen Ausgabetokens des LLM verflochten werden. Ein leichtgewichtiger Decoder transformiert dann die Ausgaben des LLM in Detektions-, Segmentierungs- und Grounding-Vorhersagen. Im Gegensatz zu früheren Methoden verarbeitet PaDT VRTs unabhängig bei jedem Vorwärtsdurchlauf und erweitert die Einbettungstabelle dynamisch, wodurch die Lokalisierung und Differenzierung zwischen ähnlichen Objekten verbessert wird. Wir passen außerdem eine Trainingsstrategie für PaDT an, indem wir zufällig VRTs für das überwachte Feinabstimmen auswählen und einen robusten pro-Token-Kreuzentropieverlust einführen. Unsere empirischen Studien über vier visuelle Wahrnehmungs- und Verständnisaufgaben zeigen, dass PaDT durchweg state-of-the-art Leistungen erzielt, selbst im Vergleich zu deutlich größeren MLLM-Modellen. Der Code ist verfügbar unter https://github.com/Gorilla-Lab-SCUT/PaDT.
English
Multimodal large language models (MLLMs) have advanced rapidly in recent years. However, existing approaches for vision tasks often rely on indirect representations, such as generating coordinates as text for detection, which limits performance and prevents dense prediction tasks like segmentation. To overcome these challenges, we introduce Patch-as-Decodable Token (PaDT), a unified paradigm that enables MLLMs to directly generate both textual and diverse visual outputs. Central to PaDT are Visual Reference Tokens (VRTs), derived from visual patch embeddings of query images and interleaved seamlessly with LLM's output textual tokens. A lightweight decoder then transforms LLM's outputs into detection, segmentation, and grounding predictions. Unlike prior methods, PaDT processes VRTs independently at each forward pass and dynamically expands the embedding table, thus improving localization and differentiation among similar objects. We further tailor a training strategy for PaDT by randomly selecting VRTs for supervised fine-tuning and introducing a robust per-token cross-entropy loss. Our empirical studies across four visual perception and understanding tasks suggest PaDT consistently achieving state-of-the-art performance, even compared with significantly larger MLLM models. The code is available at https://github.com/Gorilla-Lab-SCUT/PaDT.
PDF92October 9, 2025