Patch-como-Token-Decodável: Rumo à Unificação de Tarefas Visuais Multi-Modais em MLLMs
Patch-as-Decodable-Token: Towards Unified Multi-Modal Vision Tasks in MLLMs
October 2, 2025
Autores: Yongyi Su, Haojie Zhang, Shijie Li, Nanqing Liu, Jingyi Liao, Junyi Pan, Yuan Liu, Xiaofen Xing, Chong Sun, Chen Li, Nancy F. Chen, Shuicheng Yan, Xulei Yang, Xun Xu
cs.AI
Resumo
Modelos de linguagem multimodal de grande escala (MLLMs) avançaram rapidamente nos últimos anos. No entanto, as abordagens existentes para tarefas visuais frequentemente dependem de representações indiretas, como gerar coordenadas em texto para detecção, o que limita o desempenho e impede tarefas de predição densa, como segmentação. Para superar esses desafios, introduzimos o Patch-as-Decodable Token (PaDT), um paradigma unificado que permite que MLLMs gerem diretamente tanto saídas textuais quanto visuais diversas. Central ao PaDT estão os Tokens de Referência Visual (VRTs), derivados de embeddings de patches visuais de imagens de consulta e intercalados de forma contínua com os tokens textuais de saída do LLM. Um decodificador leve então transforma as saídas do LLM em previsões de detecção, segmentação e grounding. Diferente de métodos anteriores, o PaDT processa VRTs independentemente em cada passagem direta e expande dinamicamente a tabela de embeddings, melhorando assim a localização e a diferenciação entre objetos similares. Além disso, adaptamos uma estratégia de treinamento para o PaDT, selecionando aleatoriamente VRTs para ajuste fino supervisionado e introduzindo uma robusta função de perda de entropia cruzada por token. Nossos estudos empíricos em quatro tarefas de percepção e compreensão visual sugerem que o PaDT consistentemente alcança desempenho de ponta, mesmo quando comparado com modelos MLLM significativamente maiores. O código está disponível em https://github.com/Gorilla-Lab-SCUT/PaDT.
English
Multimodal large language models (MLLMs) have advanced rapidly in recent
years. However, existing approaches for vision tasks often rely on indirect
representations, such as generating coordinates as text for detection, which
limits performance and prevents dense prediction tasks like segmentation. To
overcome these challenges, we introduce Patch-as-Decodable Token (PaDT), a
unified paradigm that enables MLLMs to directly generate both textual and
diverse visual outputs. Central to PaDT are Visual Reference Tokens (VRTs),
derived from visual patch embeddings of query images and interleaved seamlessly
with LLM's output textual tokens. A lightweight decoder then transforms LLM's
outputs into detection, segmentation, and grounding predictions. Unlike prior
methods, PaDT processes VRTs independently at each forward pass and dynamically
expands the embedding table, thus improving localization and differentiation
among similar objects. We further tailor a training strategy for PaDT by
randomly selecting VRTs for supervised fine-tuning and introducing a robust
per-token cross-entropy loss. Our empirical studies across four visual
perception and understanding tasks suggest PaDT consistently achieving
state-of-the-art performance, even compared with significantly larger MLLM
models. The code is available at https://github.com/Gorilla-Lab-SCUT/PaDT.