REF-VLM: Paradigma de Referencia Basado en Tripletas para la Decodificación Visual Unificada
REF-VLM: Triplet-Based Referring Paradigm for Unified Visual Decoding
March 10, 2025
Autores: Yan Tai, Luhao Zhu, Zhiqiang Chen, Ynan Ding, Yiying Dong, Xiaohong Liu, Guodong Guo
cs.AI
Resumen
Los Modelos de Lenguaje Multimodales a Gran Escala (MLLMs, por sus siglas en inglés) demuestran capacidades robustas de zero-shot en diversas tareas de visión y lenguaje tras ser entrenados con conjuntos de datos a megaescala. Sin embargo, las tareas de predicción densa, como la segmentación semántica y la detección de puntos clave, presentan desafíos significativos para los MLLMs cuando se representan únicamente como salidas de texto. Al mismo tiempo, los MLLMs actuales que utilizan embeddings latentes para la decodificación de tareas visuales generalmente muestran una adaptabilidad limitada tanto al aprendizaje multitarea como a escenarios de múltiples granularidades. En este trabajo, presentamos REF-VLM, un marco de trabajo de extremo a extremo para el entrenamiento unificado de diversas tareas de decodificación visual. Para abordar escenarios complejos de decodificación visual, introducimos el Paradigma de Referencia Basado en Tripletas (TRP, por sus siglas en inglés), que desacopla explícitamente tres dimensiones críticas en las tareas de decodificación visual a través de una estructura de triplete: conceptos, tipos de decodificación y objetivos. El TRP emplea delimitadores simbólicos para reforzar el aprendizaje de representaciones estructuradas, mejorando la capacidad de análisis y la interpretabilidad de las salidas del modelo. Además, construimos el Conjunto de Datos de Seguimiento de Instrucciones Visual-Tarea (VTInstruct), un conjunto de datos multitarea a gran escala que contiene más de 100 millones de muestras de diálogo multimodal en 25 tipos de tareas. Más allá de las entradas y salidas de texto, VT-Instruct incorpora varios indicadores visuales como puntos, cuadros, garabatos y máscaras, y genera salidas compuestas por texto y unidades visuales como cuadros, puntos clave, profundidad y máscaras. La combinación de diferentes indicadores visuales y unidades visuales genera una amplia variedad de tipos de tareas, expandiendo significativamente la aplicabilidad de REF-VLM. Tanto los experimentos cualitativos como cuantitativos demuestran que nuestro REF-VLM supera a otros MLLMs en una variedad de benchmarks estándar. El código, el conjunto de datos y la demo están disponibles en https://github.com/MacavityT/REF-VLM.
English
Multimodal Large Language Models (MLLMs) demonstrate robust zero-shot
capabilities across diverse vision-language tasks after training on mega-scale
datasets. However, dense prediction tasks, such as semantic segmentation and
keypoint detection, pose significant challenges for MLLMs when represented
solely as text outputs. Simultaneously, current MLLMs utilizing latent
embeddings for visual task decoding generally demonstrate limited adaptability
to both multi-task learning and multi-granularity scenarios. In this work, we
present REF-VLM, an end-to-end framework for unified training of various visual
decoding tasks. To address complex visual decoding scenarios, we introduce the
Triplet-Based Referring Paradigm (TRP), which explicitly decouples three
critical dimensions in visual decoding tasks through a triplet structure:
concepts, decoding types, and targets. TRP employs symbolic delimiters to
enforce structured representation learning, enhancing the parsability and
interpretability of model outputs. Additionally, we construct Visual-Task
Instruction Following Dataset (VTInstruct), a large-scale multi-task dataset
containing over 100 million multimodal dialogue samples across 25 task types.
Beyond text inputs and outputs, VT-Instruct incorporates various visual prompts
such as point, box, scribble, and mask, and generates outputs composed of text
and visual units like box, keypoint, depth and mask. The combination of
different visual prompts and visual units generates a wide variety of task
types, expanding the applicability of REF-VLM significantly. Both qualitative
and quantitative experiments demonstrate that our REF-VLM outperforms other
MLLMs across a variety of standard benchmarks. The code, dataset, and demo
available at https://github.com/MacavityT/REF-VLM.Summary
AI-Generated Summary