Patch-as-Decodable-Token: Verso un Approccio Unificato per Task Visione Multi-Modale nei MLLM
Patch-as-Decodable-Token: Towards Unified Multi-Modal Vision Tasks in MLLMs
October 2, 2025
Autori: Yongyi Su, Haojie Zhang, Shijie Li, Nanqing Liu, Jingyi Liao, Junyi Pan, Yuan Liu, Xiaofen Xing, Chong Sun, Chen Li, Nancy F. Chen, Shuicheng Yan, Xulei Yang, Xun Xu
cs.AI
Abstract
I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno fatto rapidi progressi negli ultimi anni. Tuttavia, gli approcci esistenti per i compiti visivi spesso si basano su rappresentazioni indirette, come la generazione di coordinate in formato testo per il rilevamento, il che limita le prestazioni e impedisce compiti di previsione densa come la segmentazione. Per superare queste sfide, introduciamo Patch-as-Decodable Token (PaDT), un paradigma unificato che consente agli MLLM di generare direttamente sia output testuali che visivi diversificati. Al centro di PaDT ci sono i Visual Reference Tokens (VRT), derivati dagli embedding di patch visive delle immagini di query e intervallati in modo fluido con i token testuali di output del LLM. Un decoder leggero trasforma poi gli output del LLM in previsioni di rilevamento, segmentazione e grounding. A differenza dei metodi precedenti, PaDT elabora i VRT in modo indipendente ad ogni passaggio in avanti e espande dinamicamente la tabella di embedding, migliorando così la localizzazione e la differenziazione tra oggetti simili. Abbiamo inoltre adattato una strategia di addestramento per PaDT selezionando casualmente i VRT per il fine-tuning supervisionato e introducendo una robusta perdita di entropia incrociata per token. I nostri studi empirici su quattro compiti di percezione e comprensione visiva suggeriscono che PaDT raggiunge costantemente prestazioni all'avanguardia, anche rispetto a modelli MLLM significativamente più grandi. Il codice è disponibile all'indirizzo https://github.com/Gorilla-Lab-SCUT/PaDT.
English
Multimodal large language models (MLLMs) have advanced rapidly in recent
years. However, existing approaches for vision tasks often rely on indirect
representations, such as generating coordinates as text for detection, which
limits performance and prevents dense prediction tasks like segmentation. To
overcome these challenges, we introduce Patch-as-Decodable Token (PaDT), a
unified paradigm that enables MLLMs to directly generate both textual and
diverse visual outputs. Central to PaDT are Visual Reference Tokens (VRTs),
derived from visual patch embeddings of query images and interleaved seamlessly
with LLM's output textual tokens. A lightweight decoder then transforms LLM's
outputs into detection, segmentation, and grounding predictions. Unlike prior
methods, PaDT processes VRTs independently at each forward pass and dynamically
expands the embedding table, thus improving localization and differentiation
among similar objects. We further tailor a training strategy for PaDT by
randomly selecting VRTs for supervised fine-tuning and introducing a robust
per-token cross-entropy loss. Our empirical studies across four visual
perception and understanding tasks suggest PaDT consistently achieving
state-of-the-art performance, even compared with significantly larger MLLM
models. The code is available at https://github.com/Gorilla-Lab-SCUT/PaDT.