Patch-as-Decodeerbaar-Token: Naar een Geünificeerde Aanpak voor Multi-Modale Visuele Taken in MLLM's
Patch-as-Decodable-Token: Towards Unified Multi-Modal Vision Tasks in MLLMs
October 2, 2025
Auteurs: Yongyi Su, Haojie Zhang, Shijie Li, Nanqing Liu, Jingyi Liao, Junyi Pan, Yuan Liu, Xiaofen Xing, Chong Sun, Chen Li, Nancy F. Chen, Shuicheng Yan, Xulei Yang, Xun Xu
cs.AI
Samenvatting
Multimodale grote taalmodellen (MLLMs) hebben de afgelopen jaren een snelle ontwikkeling doorgemaakt. Bestaande benaderingen voor visuele taken zijn echter vaak afhankelijk van indirecte representaties, zoals het genereren van coördinaten als tekst voor detectie, wat de prestaties beperkt en dichte voorspellingstaken zoals segmentatie verhindert. Om deze uitdagingen te overwinnen, introduceren we Patch-as-Decodable Token (PaDT), een uniform paradigma dat MLLMs in staat stelt om zowel tekstuele als diverse visuele uitvoer direct te genereren. Centraal in PaDT staan Visual Reference Tokens (VRTs), afgeleid van visuele patchembeddings van queryafbeeldingen en naadloos verweven met de uitvoerteksttokens van het LLM. Een lichtgewicht decoder transformeert vervolgens de uitvoer van het LLM in detectie-, segmentatie- en grondingsvoorspellingen. In tegenstelling tot eerdere methoden verwerkt PaDT VRTs onafhankelijk bij elke forward pass en breidt het de embeddingtabel dynamisch uit, waardoor de lokalisatie en differentiatie tussen vergelijkbare objecten wordt verbeterd. We ontwikkelen verder een trainingsstrategie voor PaDT door willekeurig VRTs te selecteren voor supervised fine-tuning en een robuuste per-token cross-entropy loss te introduceren. Onze empirische studies over vier visuele perceptie- en begripstaken suggereren dat PaDT consistent state-of-the-art prestaties behaalt, zelfs in vergelijking met aanzienlijk grotere MLLM-modellen. De code is beschikbaar op https://github.com/Gorilla-Lab-SCUT/PaDT.
English
Multimodal large language models (MLLMs) have advanced rapidly in recent
years. However, existing approaches for vision tasks often rely on indirect
representations, such as generating coordinates as text for detection, which
limits performance and prevents dense prediction tasks like segmentation. To
overcome these challenges, we introduce Patch-as-Decodable Token (PaDT), a
unified paradigm that enables MLLMs to directly generate both textual and
diverse visual outputs. Central to PaDT are Visual Reference Tokens (VRTs),
derived from visual patch embeddings of query images and interleaved seamlessly
with LLM's output textual tokens. A lightweight decoder then transforms LLM's
outputs into detection, segmentation, and grounding predictions. Unlike prior
methods, PaDT processes VRTs independently at each forward pass and dynamically
expands the embedding table, thus improving localization and differentiation
among similar objects. We further tailor a training strategy for PaDT by
randomly selecting VRTs for supervised fine-tuning and introducing a robust
per-token cross-entropy loss. Our empirical studies across four visual
perception and understanding tasks suggest PaDT consistently achieving
state-of-the-art performance, even compared with significantly larger MLLM
models. The code is available at https://github.com/Gorilla-Lab-SCUT/PaDT.