Parche-como-Token-Decodable: Hacia la Unificación de Tareas de Visión Multi-Modal en MLLMs

Resumen

Los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) han avanzado rápidamente en los últimos años. Sin embargo, los enfoques existentes para tareas de visión a menudo dependen de representaciones indirectas, como generar coordenadas en forma de texto para la detección, lo que limita el rendimiento e impide tareas de predicción densa como la segmentación. Para superar estos desafíos, presentamos Patch-as-Decodable Token (PaDT), un paradigma unificado que permite a los MLLMs generar directamente tanto salidas textuales como diversas salidas visuales. El núcleo de PaDT son los Tokens de Referencia Visual (VRTs, por sus siglas en inglés), derivados de los embeddings de parches visuales de las imágenes de consulta y entrelazados sin problemas con los tokens textuales de salida del LLM. Un decodificador ligero transforma luego las salidas del LLM en predicciones de detección, segmentación y localización. A diferencia de métodos anteriores, PaDT procesa los VRTs de manera independiente en cada paso hacia adelante y expande dinámicamente la tabla de embeddings, mejorando así la localización y diferenciación entre objetos similares. Además, adaptamos una estrategia de entrenamiento para PaDT seleccionando aleatoriamente VRTs para el ajuste fino supervisado e introduciendo una robusta pérdida de entropía cruzada por token. Nuestros estudios empíricos en cuatro tareas de percepción y comprensión visual sugieren que PaDT logra consistentemente un rendimiento de vanguardia, incluso en comparación con modelos MLLM significativamente más grandes. El código está disponible en https://github.com/Gorilla-Lab-SCUT/PaDT.

English

Multimodal large language models (MLLMs) have advanced rapidly in recent years. However, existing approaches for vision tasks often rely on indirect representations, such as generating coordinates as text for detection, which limits performance and prevents dense prediction tasks like segmentation. To overcome these challenges, we introduce Patch-as-Decodable Token (PaDT), a unified paradigm that enables MLLMs to directly generate both textual and diverse visual outputs. Central to PaDT are Visual Reference Tokens (VRTs), derived from visual patch embeddings of query images and interleaved seamlessly with LLM's output textual tokens. A lightweight decoder then transforms LLM's outputs into detection, segmentation, and grounding predictions. Unlike prior methods, PaDT processes VRTs independently at each forward pass and dynamically expands the embedding table, thus improving localization and differentiation among similar objects. We further tailor a training strategy for PaDT by randomly selecting VRTs for supervised fine-tuning and introducing a robust per-token cross-entropy loss. Our empirical studies across four visual perception and understanding tasks suggest PaDT consistently achieving state-of-the-art performance, even compared with significantly larger MLLM models. The code is available at https://github.com/Gorilla-Lab-SCUT/PaDT.

Parche-como-Token-Decodable: Hacia la Unificación de Tareas de Visión Multi-Modal en MLLMs

Patch-as-Decodable-Token: Towards Unified Multi-Modal Vision Tasks in MLLMs

Resumen

Support