VLM-FO1: Het overbruggen van de kloof tussen hoogwaardige redenering en fijnmazige waarneming in VLMs
VLM-FO1: Bridging the Gap Between High-Level Reasoning and Fine-Grained Perception in VLMs
September 30, 2025
Auteurs: Peng Liu, Haozhan Shen, Chunxin Fang, Zhicheng Sun, Jiajia Liao, Tiancheng Zhao
cs.AI
Samenvatting
Vision-Language Models (VLMs) blinken uit in het begrijpen van scènes op hoog niveau, maar falen bij fijnmazige perceptietaken die precieze lokalisatie vereisen. Dit falen komt voort uit een fundamentele mismatch, aangezien het genereren van exacte numerieke coördinaten een uitdagende taak is voor taalgerichte architecturen. In dit artikel introduceren we VLM-FO1, een nieuw framework dat deze beperking overwint door objectgerichte perceptie te herformuleren van een broos coördinatengeneratieprobleem naar een robuuste feature retrieval-taak. Onze methode functioneert als een plug-and-play module die integreert met elke vooraf getrainde VLM. Het maakt gebruik van een Hybrid Fine-grained Region Encoder (HFRE), met een dubbele visuele encoder, om krachtige regiotokens te genereren die rijk zijn aan zowel semantische als ruimtelijke details. Een token-gebaseerd referentiesysteem stelt de LLM vervolgens in staat om naadloos te redeneren over en taal te verankeren in deze specifieke visuele regio's. Experimenten tonen aan dat VLM-FO1 state-of-the-art prestaties behaalt op een diverse reeks benchmarks, waarbij het uitzonderlijke capaciteiten demonstreert in objectverankering, regionaal generatief begrip en visueel regionaal redeneren. Cruciaal is dat onze tweefasige trainingsstrategie ervoor zorgt dat deze perceptiewinsten worden behaald zonder de algemene visuele begripscapaciteiten van het basismodel aan te tasten. VLM-FO1 vestigt een effectief en flexibel paradigma voor het bouwen van perceptiebewuste VLMs, waardoor de kloof tussen hoogwaardig redeneren en fijnmazige visuele verankering wordt overbrugd.
English
Vision-Language Models (VLMs) excel at high-level scene understanding but
falter on fine-grained perception tasks requiring precise localization. This
failure stems from a fundamental mismatch, as generating exact numerical
coordinates is a challenging task for language-centric architectures. In this
paper, we introduce VLM-FO1, a novel framework that overcomes this limitation
by reframing object-centric perception from a brittle coordinate generation
problem into a robust feature retrieval task. Our method operates as a
plug-and-play module that integrates with any pre-trained VLM. It leverages a
Hybrid Fine-grained Region Encoder (HFRE), featuring a dual vision encoder, to
generate powerful region tokens rich in both semantic and spatial detail. A
token-based referencing system then enables the LLM to seamlessly reason about
and ground language in these specific visual regions. Experiments show that
VLM-FO1 achieves state-of-the-art performance across a diverse suite of
benchmarks, demonstrating exceptional capabilities in object grounding, region
generational understanding, and visual region reasoning. Crucially, our
two-stage training strategy ensures that these perception gains are achieved
without compromising the base model's general visual understanding
capabilities. VLM-FO1 establishes an effective and flexible paradigm for
building perception-aware VLMs, bridging the gap between high-level reasoning
and fine-grained visual grounding.