Patch-as-Decodable-Token : Vers une unification des tâches vision multi-modales dans les MLLMs
Patch-as-Decodable-Token: Towards Unified Multi-Modal Vision Tasks in MLLMs
October 2, 2025
papers.authors: Yongyi Su, Haojie Zhang, Shijie Li, Nanqing Liu, Jingyi Liao, Junyi Pan, Yuan Liu, Xiaofen Xing, Chong Sun, Chen Li, Nancy F. Chen, Shuicheng Yan, Xulei Yang, Xun Xu
cs.AI
papers.abstract
Les modèles de langage multimodaux de grande taille (MLLMs) ont progressé rapidement ces dernières années. Cependant, les approches existantes pour les tâches visuelles reposent souvent sur des représentations indirectes, comme la génération de coordonnées sous forme de texte pour la détection, ce qui limite les performances et empêche les tâches de prédiction dense telles que la segmentation. Pour surmonter ces défis, nous introduisons Patch-as-Decodable Token (PaDT), un paradigme unifié qui permet aux MLLMs de générer directement à la fois des sorties textuelles et visuelles variées. Au cœur de PaDT se trouvent les Visual Reference Tokens (VRTs), dérivés des embeddings de patch visuels des images de requête et entrelacés de manière fluide avec les tokens textuels de sortie du LLM. Un décodeur léger transforme ensuite les sorties du LLM en prédictions de détection, de segmentation et de localisation. Contrairement aux méthodes précédentes, PaDT traite les VRTs indépendamment à chaque passage avant et étend dynamiquement la table d'embedding, améliorant ainsi la localisation et la différenciation entre objets similaires. Nous adaptons également une stratégie d'entraînement pour PaDT en sélectionnant aléatoirement des VRTs pour le fine-tuning supervisé et en introduisant une robuste perte d'entropie croisée par token. Nos études empiriques sur quatre tâches de perception et de compréhension visuelle montrent que PaDT atteint systématiquement des performances de pointe, même comparé à des modèles MLLM significativement plus grands. Le code est disponible à l'adresse https://github.com/Gorilla-Lab-SCUT/PaDT.
English
Multimodal large language models (MLLMs) have advanced rapidly in recent
years. However, existing approaches for vision tasks often rely on indirect
representations, such as generating coordinates as text for detection, which
limits performance and prevents dense prediction tasks like segmentation. To
overcome these challenges, we introduce Patch-as-Decodable Token (PaDT), a
unified paradigm that enables MLLMs to directly generate both textual and
diverse visual outputs. Central to PaDT are Visual Reference Tokens (VRTs),
derived from visual patch embeddings of query images and interleaved seamlessly
with LLM's output textual tokens. A lightweight decoder then transforms LLM's
outputs into detection, segmentation, and grounding predictions. Unlike prior
methods, PaDT processes VRTs independently at each forward pass and dynamically
expands the embedding table, thus improving localization and differentiation
among similar objects. We further tailor a training strategy for PaDT by
randomly selecting VRTs for supervised fine-tuning and introducing a robust
per-token cross-entropy loss. Our empirical studies across four visual
perception and understanding tasks suggest PaDT consistently achieving
state-of-the-art performance, even compared with significantly larger MLLM
models. The code is available at https://github.com/Gorilla-Lab-SCUT/PaDT.