REF-VLM: Тройственная парадигма референции для унифицированного визуального декодирования
REF-VLM: Triplet-Based Referring Paradigm for Unified Visual Decoding
March 10, 2025
Авторы: Yan Tai, Luhao Zhu, Zhiqiang Chen, Ynan Ding, Yiying Dong, Xiaohong Liu, Guodong Guo
cs.AI
Аннотация
Мультимодальные большие языковые модели (MLLMs) демонстрируют мощные возможности нулевого сэмплинга в разнообразных задачах, связанных с обработкой визуальной и текстовой информации, после обучения на мегамасштабных наборах данных. Однако задачи плотного предсказания, такие как семантическая сегментация и обнаружение ключевых точек, представляют значительные трудности для MLLMs, когда они представлены исключительно в виде текстовых выходов. В то же время современные MLLMs, использующие латентные эмбеддинги для декодирования визуальных задач, обычно демонстрируют ограниченную адаптируемость как к многозадачному обучению, так и к сценариям с множественной гранулярностью. В данной работе мы представляем REF-VLM, сквозную структуру для унифицированного обучения различным задачам визуального декодирования. Для решения сложных сценариев визуального декодирования мы вводим Триплетную Парадигму Референции (TRP), которая явно разделяет три критических измерения в задачах визуального декодирования через триплетную структуру: концепции, типы декодирования и цели. TRP использует символические разделители для обеспечения структурированного обучения представлений, повышая разбираемость и интерпретируемость выходов модели. Кроме того, мы создаем набор данных Visual-Task Instruction Following Dataset (VTInstruct), крупномасштабный многозадачный набор данных, содержащий более 100 миллионов мультимодальных диалоговых примеров для 25 типов задач. Помимо текстовых входов и выходов, VT-Instruct включает различные визуальные подсказки, такие как точки, рамки, штрихи и маски, и генерирует выходы, состоящие из текста и визуальных элементов, таких как рамки, ключевые точки, глубина и маски. Комбинация различных визуальных подсказок и визуальных элементов создает широкий спектр типов задач, значительно расширяя применимость REF-VLM. Качественные и количественные эксперименты показывают, что наш REF-VLM превосходит другие MLLMs на различных стандартных бенчмарках. Код, набор данных и демо доступны по адресу https://github.com/MacavityT/REF-VLM.
English
Multimodal Large Language Models (MLLMs) demonstrate robust zero-shot
capabilities across diverse vision-language tasks after training on mega-scale
datasets. However, dense prediction tasks, such as semantic segmentation and
keypoint detection, pose significant challenges for MLLMs when represented
solely as text outputs. Simultaneously, current MLLMs utilizing latent
embeddings for visual task decoding generally demonstrate limited adaptability
to both multi-task learning and multi-granularity scenarios. In this work, we
present REF-VLM, an end-to-end framework for unified training of various visual
decoding tasks. To address complex visual decoding scenarios, we introduce the
Triplet-Based Referring Paradigm (TRP), which explicitly decouples three
critical dimensions in visual decoding tasks through a triplet structure:
concepts, decoding types, and targets. TRP employs symbolic delimiters to
enforce structured representation learning, enhancing the parsability and
interpretability of model outputs. Additionally, we construct Visual-Task
Instruction Following Dataset (VTInstruct), a large-scale multi-task dataset
containing over 100 million multimodal dialogue samples across 25 task types.
Beyond text inputs and outputs, VT-Instruct incorporates various visual prompts
such as point, box, scribble, and mask, and generates outputs composed of text
and visual units like box, keypoint, depth and mask. The combination of
different visual prompts and visual units generates a wide variety of task
types, expanding the applicability of REF-VLM significantly. Both qualitative
and quantitative experiments demonstrate that our REF-VLM outperforms other
MLLMs across a variety of standard benchmarks. The code, dataset, and demo
available at https://github.com/MacavityT/REF-VLM.Summary
AI-Generated Summary