REF-VLM : Paradigme de référencement par triplet pour un décodage visuel unifié
REF-VLM: Triplet-Based Referring Paradigm for Unified Visual Decoding
March 10, 2025
Auteurs: Yan Tai, Luhao Zhu, Zhiqiang Chen, Ynan Ding, Yiying Dong, Xiaohong Liu, Guodong Guo
cs.AI
Résumé
Les modèles de langage multimodaux de grande taille (MLLMs) démontrent des capacités robustes en zero-shot sur une variété de tâches vision-langage après un entraînement sur des jeux de données à très grande échelle. Cependant, les tâches de prédiction dense, telles que la segmentation sémantique et la détection de points clés, posent des défis significatifs pour les MLLMs lorsqu'elles sont représentées uniquement sous forme de sorties textuelles. Parallèlement, les MLLMs actuels utilisant des embeddings latents pour le décodage des tâches visuelles montrent généralement une adaptabilité limitée à la fois à l'apprentissage multitâche et aux scénarios multi-granularité. Dans ce travail, nous présentons REF-VLM, un cadre de travail end-to-end pour l'entraînement unifié de diverses tâches de décodage visuel. Pour aborder les scénarios complexes de décodage visuel, nous introduisons le Paradigme de Référencement par Triplet (TRP), qui découple explicitement trois dimensions critiques dans les tâches de décodage visuel à travers une structure triplet : les concepts, les types de décodage et les cibles. Le TRP utilise des délimiteurs symboliques pour imposer un apprentissage de représentation structuré, améliorant ainsi la parsabilité et l'interprétabilité des sorties du modèle. De plus, nous construisons VT-Instruct, un jeu de données à grande échelle pour le suivi d'instructions visuelles, contenant plus de 100 millions d'échantillons de dialogues multimodaux couvrant 25 types de tâches. Au-delà des entrées et sorties textuelles, VT-Instruct intègre divers prompts visuels tels que des points, des boîtes, des gribouillis et des masques, et génère des sorties composées de textes et d'unités visuelles comme des boîtes, des points clés, des profondeurs et des masques. La combinaison de différents prompts visuels et unités visuelles génère une grande variété de types de tâches, élargissant considérablement l'applicabilité de REF-VLM. Les expériences qualitatives et quantitatives démontrent que notre REF-VLM surpasse d'autres MLLMs sur une variété de benchmarks standards. Le code, le jeu de données et la démo sont disponibles à l'adresse suivante : https://github.com/MacavityT/REF-VLM.
English
Multimodal Large Language Models (MLLMs) demonstrate robust zero-shot
capabilities across diverse vision-language tasks after training on mega-scale
datasets. However, dense prediction tasks, such as semantic segmentation and
keypoint detection, pose significant challenges for MLLMs when represented
solely as text outputs. Simultaneously, current MLLMs utilizing latent
embeddings for visual task decoding generally demonstrate limited adaptability
to both multi-task learning and multi-granularity scenarios. In this work, we
present REF-VLM, an end-to-end framework for unified training of various visual
decoding tasks. To address complex visual decoding scenarios, we introduce the
Triplet-Based Referring Paradigm (TRP), which explicitly decouples three
critical dimensions in visual decoding tasks through a triplet structure:
concepts, decoding types, and targets. TRP employs symbolic delimiters to
enforce structured representation learning, enhancing the parsability and
interpretability of model outputs. Additionally, we construct Visual-Task
Instruction Following Dataset (VTInstruct), a large-scale multi-task dataset
containing over 100 million multimodal dialogue samples across 25 task types.
Beyond text inputs and outputs, VT-Instruct incorporates various visual prompts
such as point, box, scribble, and mask, and generates outputs composed of text
and visual units like box, keypoint, depth and mask. The combination of
different visual prompts and visual units generates a wide variety of task
types, expanding the applicability of REF-VLM significantly. Both qualitative
and quantitative experiments demonstrate that our REF-VLM outperforms other
MLLMs across a variety of standard benchmarks. The code, dataset, and demo
available at https://github.com/MacavityT/REF-VLM.Summary
AI-Generated Summary