VLM-FO1: Преодоление разрыва между высокоуровневым рассуждением и детализированным восприятием в визуально-языковых моделях
VLM-FO1: Bridging the Gap Between High-Level Reasoning and Fine-Grained Perception in VLMs
September 30, 2025
Авторы: Peng Liu, Haozhan Shen, Chunxin Fang, Zhicheng Sun, Jiajia Liao, Tiancheng Zhao
cs.AI
Аннотация
Модели, объединяющие зрение и язык (Vision-Language Models, VLMs), превосходно справляются с задачами высокоуровневого понимания сцен, но испытывают трудности в задачах детального восприятия, требующих точной локализации. Эта проблема возникает из-за фундаментального несоответствия, поскольку генерация точных числовых координат является сложной задачей для архитектур, ориентированных на язык. В данной статье мы представляем VLM-FO1 — новый подход, который преодолевает это ограничение, переосмысливая объектно-ориентированное восприятие как задачу устойчивого извлечения признаков вместо хрупкой генерации координат. Наш метод работает как модуль plug-and-play, интегрируемый с любой предварительно обученной VLM. Он использует гибридный кодировщик детальных регионов (Hybrid Fine-grained Region Encoder, HFRE), оснащенный двойным кодировщиком изображений, для генерации мощных токенов регионов, богатых как семантическими, так и пространственными деталями. Система ссылок на основе токенов позволяет языковой модели (LLM) легко рассуждать и связывать язык с конкретными визуальными регионами. Эксперименты показывают, что VLM-FO1 достигает наилучших результатов на разнообразных тестовых наборах, демонстрируя исключительные способности в локализации объектов, понимании генерации регионов и рассуждении о визуальных регионах. Важно отметить, что наша двухэтапная стратегия обучения обеспечивает достижение этих улучшений восприятия без ущерба для общих способностей базовой модели к визуальному пониманию. VLM-FO1 устанавливает эффективную и гибкую парадигму для создания моделей, учитывающих восприятие, устраняя разрыв между высокоуровневым рассуждением и детальной визуальной привязкой.
English
Vision-Language Models (VLMs) excel at high-level scene understanding but
falter on fine-grained perception tasks requiring precise localization. This
failure stems from a fundamental mismatch, as generating exact numerical
coordinates is a challenging task for language-centric architectures. In this
paper, we introduce VLM-FO1, a novel framework that overcomes this limitation
by reframing object-centric perception from a brittle coordinate generation
problem into a robust feature retrieval task. Our method operates as a
plug-and-play module that integrates with any pre-trained VLM. It leverages a
Hybrid Fine-grained Region Encoder (HFRE), featuring a dual vision encoder, to
generate powerful region tokens rich in both semantic and spatial detail. A
token-based referencing system then enables the LLM to seamlessly reason about
and ground language in these specific visual regions. Experiments show that
VLM-FO1 achieves state-of-the-art performance across a diverse suite of
benchmarks, demonstrating exceptional capabilities in object grounding, region
generational understanding, and visual region reasoning. Crucially, our
two-stage training strategy ensures that these perception gains are achieved
without compromising the base model's general visual understanding
capabilities. VLM-FO1 establishes an effective and flexible paradigm for
building perception-aware VLMs, bridging the gap between high-level reasoning
and fine-grained visual grounding.