REF-VLM: Paradigma di Riferimento Basato su Triplette per la Decodifica Visiva Unificata
REF-VLM: Triplet-Based Referring Paradigm for Unified Visual Decoding
March 10, 2025
Autori: Yan Tai, Luhao Zhu, Zhiqiang Chen, Ynan Ding, Yiying Dong, Xiaohong Liu, Guodong Guo
cs.AI
Abstract
I Modelli Linguistici Multimodali di Grande Scala (MLLMs) dimostrano robuste capacità zero-shot su una vasta gamma di compiti visione-linguaggio dopo l'addestramento su dataset di dimensioni enormi. Tuttavia, compiti di predizione densa, come la segmentazione semantica e il rilevamento di punti chiave, rappresentano sfide significative per gli MLLM quando vengono rappresentati esclusivamente come output testuali. Allo stesso tempo, gli attuali MLLM che utilizzano embedding latenti per la decodifica di compiti visivi dimostrano generalmente una limitata adattabilità sia all'apprendimento multi-task che a scenari multi-granularità. In questo lavoro, presentiamo REF-VLM, un framework end-to-end per l'addestramento unificato di vari compiti di decodifica visiva. Per affrontare scenari complessi di decodifica visiva, introduciamo il Paradigma di Riferimento Triplo (TRP), che decopla esplicitamente tre dimensioni critiche nei compiti di decodifica visiva attraverso una struttura tripla: concetti, tipi di decodifica e target. Il TRP utilizza delimitatori simbolici per rafforzare l'apprendimento di rappresentazioni strutturate, migliorando la parsabilità e l'interpretabilità degli output del modello. Inoltre, costruiamo il Dataset di Istruzioni per Compiti Visivi (VTInstruct), un dataset multi-task su larga scala contenente oltre 100 milioni di campioni di dialogo multimodale attraverso 25 tipi di compiti. Oltre agli input e output testuali, VT-Instruct incorpora vari prompt visivi come punti, riquadri, scarabocchi e maschere, e genera output composti da testo e unità visive come riquadri, punti chiave, profondità e maschere. La combinazione di diversi prompt visivi e unità visive genera una vasta gamma di tipi di compiti, ampliando significativamente l'applicabilità di REF-VLM. Sia esperimenti qualitativi che quantitativi dimostrano che il nostro REF-VLM supera altri MLLM su una varietà di benchmark standard. Il codice, il dataset e la demo sono disponibili su https://github.com/MacavityT/REF-VLM.
English
Multimodal Large Language Models (MLLMs) demonstrate robust zero-shot
capabilities across diverse vision-language tasks after training on mega-scale
datasets. However, dense prediction tasks, such as semantic segmentation and
keypoint detection, pose significant challenges for MLLMs when represented
solely as text outputs. Simultaneously, current MLLMs utilizing latent
embeddings for visual task decoding generally demonstrate limited adaptability
to both multi-task learning and multi-granularity scenarios. In this work, we
present REF-VLM, an end-to-end framework for unified training of various visual
decoding tasks. To address complex visual decoding scenarios, we introduce the
Triplet-Based Referring Paradigm (TRP), which explicitly decouples three
critical dimensions in visual decoding tasks through a triplet structure:
concepts, decoding types, and targets. TRP employs symbolic delimiters to
enforce structured representation learning, enhancing the parsability and
interpretability of model outputs. Additionally, we construct Visual-Task
Instruction Following Dataset (VTInstruct), a large-scale multi-task dataset
containing over 100 million multimodal dialogue samples across 25 task types.
Beyond text inputs and outputs, VT-Instruct incorporates various visual prompts
such as point, box, scribble, and mask, and generates outputs composed of text
and visual units like box, keypoint, depth and mask. The combination of
different visual prompts and visual units generates a wide variety of task
types, expanding the applicability of REF-VLM significantly. Both qualitative
and quantitative experiments demonstrate that our REF-VLM outperforms other
MLLMs across a variety of standard benchmarks. The code, dataset, and demo
available at https://github.com/MacavityT/REF-VLM.Summary
AI-Generated Summary