Parche-como-Token-Decodable: Hacia la Unificación de Tareas de Visión Multi-Modal en MLLMs
Patch-as-Decodable-Token: Towards Unified Multi-Modal Vision Tasks in MLLMs
October 2, 2025
Autores: Yongyi Su, Haojie Zhang, Shijie Li, Nanqing Liu, Jingyi Liao, Junyi Pan, Yuan Liu, Xiaofen Xing, Chong Sun, Chen Li, Nancy F. Chen, Shuicheng Yan, Xulei Yang, Xun Xu
cs.AI
Resumen
Los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) han avanzado rápidamente en los últimos años. Sin embargo, los enfoques existentes para tareas de visión a menudo dependen de representaciones indirectas, como generar coordenadas en forma de texto para la detección, lo que limita el rendimiento e impide tareas de predicción densa como la segmentación. Para superar estos desafíos, presentamos Patch-as-Decodable Token (PaDT), un paradigma unificado que permite a los MLLMs generar directamente tanto salidas textuales como diversas salidas visuales. El núcleo de PaDT son los Tokens de Referencia Visual (VRTs, por sus siglas en inglés), derivados de los embeddings de parches visuales de las imágenes de consulta y entrelazados sin problemas con los tokens textuales de salida del LLM. Un decodificador ligero transforma luego las salidas del LLM en predicciones de detección, segmentación y localización. A diferencia de métodos anteriores, PaDT procesa los VRTs de manera independiente en cada paso hacia adelante y expande dinámicamente la tabla de embeddings, mejorando así la localización y diferenciación entre objetos similares. Además, adaptamos una estrategia de entrenamiento para PaDT seleccionando aleatoriamente VRTs para el ajuste fino supervisado e introduciendo una robusta pérdida de entropía cruzada por token. Nuestros estudios empíricos en cuatro tareas de percepción y comprensión visual sugieren que PaDT logra consistentemente un rendimiento de vanguardia, incluso en comparación con modelos MLLM significativamente más grandes. El código está disponible en https://github.com/Gorilla-Lab-SCUT/PaDT.
English
Multimodal large language models (MLLMs) have advanced rapidly in recent
years. However, existing approaches for vision tasks often rely on indirect
representations, such as generating coordinates as text for detection, which
limits performance and prevents dense prediction tasks like segmentation. To
overcome these challenges, we introduce Patch-as-Decodable Token (PaDT), a
unified paradigm that enables MLLMs to directly generate both textual and
diverse visual outputs. Central to PaDT are Visual Reference Tokens (VRTs),
derived from visual patch embeddings of query images and interleaved seamlessly
with LLM's output textual tokens. A lightweight decoder then transforms LLM's
outputs into detection, segmentation, and grounding predictions. Unlike prior
methods, PaDT processes VRTs independently at each forward pass and dynamically
expands the embedding table, thus improving localization and differentiation
among similar objects. We further tailor a training strategy for PaDT by
randomly selecting VRTs for supervised fine-tuning and introducing a robust
per-token cross-entropy loss. Our empirical studies across four visual
perception and understanding tasks suggest PaDT consistently achieving
state-of-the-art performance, even compared with significantly larger MLLM
models. The code is available at https://github.com/Gorilla-Lab-SCUT/PaDT.