REF-VLM: Paradigma de Referência Baseado em Triplas para Decodificação Visual Unificada
REF-VLM: Triplet-Based Referring Paradigm for Unified Visual Decoding
March 10, 2025
Autores: Yan Tai, Luhao Zhu, Zhiqiang Chen, Ynan Ding, Yiying Dong, Xiaohong Liu, Guodong Guo
cs.AI
Resumo
Modelos de Linguagem Multimodais de Grande Escala (MLLMs) demonstram capacidades robustas de zero-shot em diversas tarefas de visão e linguagem após o treinamento em conjuntos de dados de mega escala. No entanto, tarefas de predição densa, como segmentação semântica e detecção de pontos-chave, apresentam desafios significativos para MLLMs quando representadas apenas como saídas de texto. Simultaneamente, os MLLMs atuais que utilizam embeddings latentes para decodificação de tarefas visuais geralmente demonstram adaptabilidade limitada tanto para aprendizado multitarefa quanto para cenários de multi granularidade. Neste trabalho, apresentamos o REF-VLM, uma estrutura de ponta a ponta para treinamento unificado de várias tarefas de decodificação visual. Para abordar cenários complexos de decodificação visual, introduzimos o Paradigma de Referência Baseado em Tripletas (TRP), que desacopla explicitamente três dimensões críticas em tarefas de decodificação visual por meio de uma estrutura de tripla: conceitos, tipos de decodificação e alvos. O TRP emprega delimitadores simbólicos para reforçar o aprendizado de representação estruturada, melhorando a capacidade de análise e interpretabilidade das saídas do modelo. Além disso, construímos o Conjunto de Dados de Seguimento de Instruções de Tarefas Visuais (VTInstruct), um conjunto de dados multitarefa de grande escala contendo mais de 100 milhões de amostras de diálogo multimodal em 25 tipos de tarefas. Além de entradas e saídas de texto, o VT-Instruct incorpora vários prompts visuais, como ponto, caixa, rabisco e máscara, e gera saídas compostas por texto e unidades visuais, como caixa, ponto-chave, profundidade e máscara. A combinação de diferentes prompts visuais e unidades visuais gera uma ampla variedade de tipos de tarefas, expandindo significativamente a aplicabilidade do REF-VLM. Experimentos qualitativos e quantitativos demonstram que nosso REF-VLM supera outros MLLMs em uma variedade de benchmarks padrão. O código, conjunto de dados e demonstração estão disponíveis em https://github.com/MacavityT/REF-VLM.
English
Multimodal Large Language Models (MLLMs) demonstrate robust zero-shot
capabilities across diverse vision-language tasks after training on mega-scale
datasets. However, dense prediction tasks, such as semantic segmentation and
keypoint detection, pose significant challenges for MLLMs when represented
solely as text outputs. Simultaneously, current MLLMs utilizing latent
embeddings for visual task decoding generally demonstrate limited adaptability
to both multi-task learning and multi-granularity scenarios. In this work, we
present REF-VLM, an end-to-end framework for unified training of various visual
decoding tasks. To address complex visual decoding scenarios, we introduce the
Triplet-Based Referring Paradigm (TRP), which explicitly decouples three
critical dimensions in visual decoding tasks through a triplet structure:
concepts, decoding types, and targets. TRP employs symbolic delimiters to
enforce structured representation learning, enhancing the parsability and
interpretability of model outputs. Additionally, we construct Visual-Task
Instruction Following Dataset (VTInstruct), a large-scale multi-task dataset
containing over 100 million multimodal dialogue samples across 25 task types.
Beyond text inputs and outputs, VT-Instruct incorporates various visual prompts
such as point, box, scribble, and mask, and generates outputs composed of text
and visual units like box, keypoint, depth and mask. The combination of
different visual prompts and visual units generates a wide variety of task
types, expanding the applicability of REF-VLM significantly. Both qualitative
and quantitative experiments demonstrate that our REF-VLM outperforms other
MLLMs across a variety of standard benchmarks. The code, dataset, and demo
available at https://github.com/MacavityT/REF-VLM.Summary
AI-Generated Summary