REF-VLM: Paradigma di Riferimento Basato su Triplette per la Decodifica Visiva Unificata

Abstract

I Modelli Linguistici Multimodali di Grande Scala (MLLMs) dimostrano robuste capacità zero-shot su una vasta gamma di compiti visione-linguaggio dopo l'addestramento su dataset di dimensioni enormi. Tuttavia, compiti di predizione densa, come la segmentazione semantica e il rilevamento di punti chiave, rappresentano sfide significative per gli MLLM quando vengono rappresentati esclusivamente come output testuali. Allo stesso tempo, gli attuali MLLM che utilizzano embedding latenti per la decodifica di compiti visivi dimostrano generalmente una limitata adattabilità sia all'apprendimento multi-task che a scenari multi-granularità. In questo lavoro, presentiamo REF-VLM, un framework end-to-end per l'addestramento unificato di vari compiti di decodifica visiva. Per affrontare scenari complessi di decodifica visiva, introduciamo il Paradigma di Riferimento Triplo (TRP), che decopla esplicitamente tre dimensioni critiche nei compiti di decodifica visiva attraverso una struttura tripla: concetti, tipi di decodifica e target. Il TRP utilizza delimitatori simbolici per rafforzare l'apprendimento di rappresentazioni strutturate, migliorando la parsabilità e l'interpretabilità degli output del modello. Inoltre, costruiamo il Dataset di Istruzioni per Compiti Visivi (VTInstruct), un dataset multi-task su larga scala contenente oltre 100 milioni di campioni di dialogo multimodale attraverso 25 tipi di compiti. Oltre agli input e output testuali, VT-Instruct incorpora vari prompt visivi come punti, riquadri, scarabocchi e maschere, e genera output composti da testo e unità visive come riquadri, punti chiave, profondità e maschere. La combinazione di diversi prompt visivi e unità visive genera una vasta gamma di tipi di compiti, ampliando significativamente l'applicabilità di REF-VLM. Sia esperimenti qualitativi che quantitativi dimostrano che il nostro REF-VLM supera altri MLLM su una varietà di benchmark standard. Il codice, il dataset e la demo sono disponibili su https://github.com/MacavityT/REF-VLM.

English

Multimodal Large Language Models (MLLMs) demonstrate robust zero-shot capabilities across diverse vision-language tasks after training on mega-scale datasets. However, dense prediction tasks, such as semantic segmentation and keypoint detection, pose significant challenges for MLLMs when represented solely as text outputs. Simultaneously, current MLLMs utilizing latent embeddings for visual task decoding generally demonstrate limited adaptability to both multi-task learning and multi-granularity scenarios. In this work, we present REF-VLM, an end-to-end framework for unified training of various visual decoding tasks. To address complex visual decoding scenarios, we introduce the Triplet-Based Referring Paradigm (TRP), which explicitly decouples three critical dimensions in visual decoding tasks through a triplet structure: concepts, decoding types, and targets. TRP employs symbolic delimiters to enforce structured representation learning, enhancing the parsability and interpretability of model outputs. Additionally, we construct Visual-Task Instruction Following Dataset (VTInstruct), a large-scale multi-task dataset containing over 100 million multimodal dialogue samples across 25 task types. Beyond text inputs and outputs, VT-Instruct incorporates various visual prompts such as point, box, scribble, and mask, and generates outputs composed of text and visual units like box, keypoint, depth and mask. The combination of different visual prompts and visual units generates a wide variety of task types, expanding the applicability of REF-VLM significantly. Both qualitative and quantitative experiments demonstrate that our REF-VLM outperforms other MLLMs across a variety of standard benchmarks. The code, dataset, and demo available at https://github.com/MacavityT/REF-VLM.

REF-VLM: Paradigma di Riferimento Basato su Triplette per la Decodifica Visiva Unificata

REF-VLM: Triplet-Based Referring Paradigm for Unified Visual Decoding

Abstract

Support