REF-VLM: Paradigma de Referencia Basado en Tripletas para la Decodificación Visual Unificada

Resumen

Los Modelos de Lenguaje Multimodales a Gran Escala (MLLMs, por sus siglas en inglés) demuestran capacidades robustas de zero-shot en diversas tareas de visión y lenguaje tras ser entrenados con conjuntos de datos a megaescala. Sin embargo, las tareas de predicción densa, como la segmentación semántica y la detección de puntos clave, presentan desafíos significativos para los MLLMs cuando se representan únicamente como salidas de texto. Al mismo tiempo, los MLLMs actuales que utilizan embeddings latentes para la decodificación de tareas visuales generalmente muestran una adaptabilidad limitada tanto al aprendizaje multitarea como a escenarios de múltiples granularidades. En este trabajo, presentamos REF-VLM, un marco de trabajo de extremo a extremo para el entrenamiento unificado de diversas tareas de decodificación visual. Para abordar escenarios complejos de decodificación visual, introducimos el Paradigma de Referencia Basado en Tripletas (TRP, por sus siglas en inglés), que desacopla explícitamente tres dimensiones críticas en las tareas de decodificación visual a través de una estructura de triplete: conceptos, tipos de decodificación y objetivos. El TRP emplea delimitadores simbólicos para reforzar el aprendizaje de representaciones estructuradas, mejorando la capacidad de análisis y la interpretabilidad de las salidas del modelo. Además, construimos el Conjunto de Datos de Seguimiento de Instrucciones Visual-Tarea (VTInstruct), un conjunto de datos multitarea a gran escala que contiene más de 100 millones de muestras de diálogo multimodal en 25 tipos de tareas. Más allá de las entradas y salidas de texto, VT-Instruct incorpora varios indicadores visuales como puntos, cuadros, garabatos y máscaras, y genera salidas compuestas por texto y unidades visuales como cuadros, puntos clave, profundidad y máscaras. La combinación de diferentes indicadores visuales y unidades visuales genera una amplia variedad de tipos de tareas, expandiendo significativamente la aplicabilidad de REF-VLM. Tanto los experimentos cualitativos como cuantitativos demuestran que nuestro REF-VLM supera a otros MLLMs en una variedad de benchmarks estándar. El código, el conjunto de datos y la demo están disponibles en https://github.com/MacavityT/REF-VLM.

English

Multimodal Large Language Models (MLLMs) demonstrate robust zero-shot capabilities across diverse vision-language tasks after training on mega-scale datasets. However, dense prediction tasks, such as semantic segmentation and keypoint detection, pose significant challenges for MLLMs when represented solely as text outputs. Simultaneously, current MLLMs utilizing latent embeddings for visual task decoding generally demonstrate limited adaptability to both multi-task learning and multi-granularity scenarios. In this work, we present REF-VLM, an end-to-end framework for unified training of various visual decoding tasks. To address complex visual decoding scenarios, we introduce the Triplet-Based Referring Paradigm (TRP), which explicitly decouples three critical dimensions in visual decoding tasks through a triplet structure: concepts, decoding types, and targets. TRP employs symbolic delimiters to enforce structured representation learning, enhancing the parsability and interpretability of model outputs. Additionally, we construct Visual-Task Instruction Following Dataset (VTInstruct), a large-scale multi-task dataset containing over 100 million multimodal dialogue samples across 25 task types. Beyond text inputs and outputs, VT-Instruct incorporates various visual prompts such as point, box, scribble, and mask, and generates outputs composed of text and visual units like box, keypoint, depth and mask. The combination of different visual prompts and visual units generates a wide variety of task types, expanding the applicability of REF-VLM significantly. Both qualitative and quantitative experiments demonstrate that our REF-VLM outperforms other MLLMs across a variety of standard benchmarks. The code, dataset, and demo available at https://github.com/MacavityT/REF-VLM.

REF-VLM: Paradigma de Referencia Basado en Tripletas para la Decodificación Visual Unificada

REF-VLM: Triplet-Based Referring Paradigm for Unified Visual Decoding

Resumen

Support