REF-VLM: Triple-Based Referentieparadigma voor Uniforme Visuele Decodering
REF-VLM: Triplet-Based Referring Paradigm for Unified Visual Decoding
March 10, 2025
Auteurs: Yan Tai, Luhao Zhu, Zhiqiang Chen, Ynan Ding, Yiying Dong, Xiaohong Liu, Guodong Guo
cs.AI
Samenvatting
Multimodale Large Language Models (MLLMs) tonen robuuste zero-shot-capaciteiten bij diverse visueel-taalkundige taken na training op mega-schaal datasets. Dichte voorspellingstaken, zoals semantische segmentatie en keypoint-detectie, vormen echter aanzienlijke uitdagingen voor MLLMs wanneer deze uitsluitend als tekstoutputs worden weergegeven. Tegelijkertijd laten huidige MLLMs die latente embeddings gebruiken voor visuele taakdecodering over het algemeen beperkte aanpassingsvermogen zien voor zowel multi-task learning als multi-granulariteitsscenario's. In dit werk presenteren we REF-VLM, een end-to-end framework voor de geïntegreerde training van diverse visuele decoderingstaken. Om complexe visuele decoderingsscenario's aan te pakken, introduceren we het Triplet-Based Referring Paradigm (TRP), dat drie kritieke dimensies in visuele decoderingstaken expliciet ontkoppelt via een tripletstructuur: concepten, decoderingstypen en doelen. TRP maakt gebruik van symbolische scheidingstekens om gestructureerde representatielearning te bevorderen, waardoor de parseerbaarheid en interpreteerbaarheid van modeloutputs worden verbeterd. Daarnaast construeren we het Visual-Task Instruction Following Dataset (VTInstruct), een grootschalige multi-task dataset met meer dan 100 miljoen multimodale dialoogvoorbeelden over 25 taaktypen. Naast tekstinputs en -outputs bevat VT-Instruct diverse visuele prompts zoals punt, box, scribble en mask, en genereert het outputs die bestaan uit tekst en visuele eenheden zoals box, keypoint, diepte en mask. De combinatie van verschillende visuele prompts en visuele eenheden genereert een breed scala aan taaktypen, waardoor de toepasbaarheid van REF-VLM aanzienlijk wordt uitgebreid. Zowel kwalitatieve als kwantitatieve experimenten tonen aan dat onze REF-VLM andere MLLMs overtreft op diverse standaard benchmarks. De code, dataset en demo zijn beschikbaar op https://github.com/MacavityT/REF-VLM.
English
Multimodal Large Language Models (MLLMs) demonstrate robust zero-shot
capabilities across diverse vision-language tasks after training on mega-scale
datasets. However, dense prediction tasks, such as semantic segmentation and
keypoint detection, pose significant challenges for MLLMs when represented
solely as text outputs. Simultaneously, current MLLMs utilizing latent
embeddings for visual task decoding generally demonstrate limited adaptability
to both multi-task learning and multi-granularity scenarios. In this work, we
present REF-VLM, an end-to-end framework for unified training of various visual
decoding tasks. To address complex visual decoding scenarios, we introduce the
Triplet-Based Referring Paradigm (TRP), which explicitly decouples three
critical dimensions in visual decoding tasks through a triplet structure:
concepts, decoding types, and targets. TRP employs symbolic delimiters to
enforce structured representation learning, enhancing the parsability and
interpretability of model outputs. Additionally, we construct Visual-Task
Instruction Following Dataset (VTInstruct), a large-scale multi-task dataset
containing over 100 million multimodal dialogue samples across 25 task types.
Beyond text inputs and outputs, VT-Instruct incorporates various visual prompts
such as point, box, scribble, and mask, and generates outputs composed of text
and visual units like box, keypoint, depth and mask. The combination of
different visual prompts and visual units generates a wide variety of task
types, expanding the applicability of REF-VLM significantly. Both qualitative
and quantitative experiments demonstrate that our REF-VLM outperforms other
MLLMs across a variety of standard benchmarks. The code, dataset, and demo
available at https://github.com/MacavityT/REF-VLM.Summary
AI-Generated Summary