VLM-FO1: Überbrückung der Lücke zwischen hochrangigem Denken und feinmaschiger Wahrnehmung in VLMs
VLM-FO1: Bridging the Gap Between High-Level Reasoning and Fine-Grained Perception in VLMs
September 30, 2025
papers.authors: Peng Liu, Haozhan Shen, Chunxin Fang, Zhicheng Sun, Jiajia Liao, Tiancheng Zhao
cs.AI
papers.abstract
Vision-Language Models (VLMs) zeichnen sich durch ein hohes Verständnis von Szenen aus, scheitern jedoch bei feingranularen Wahrnehmungsaufgaben, die eine präzise Lokalisierung erfordern. Dieses Versagen resultiert aus einem grundlegenden Missverhältnis, da die Generierung exakter numerischer Koordinaten eine herausfordernde Aufgabe für sprachzentrierte Architekturen darstellt. In diesem Artikel stellen wir VLM-FO1 vor, ein neuartiges Framework, das diese Einschränkung überwindet, indem es die objektzentrierte Wahrnehmung von einem fragilen Koordinatengenerierungsproblem in eine robuste Merkmalsabrufaufgabe umformuliert. Unsere Methode fungiert als Plug-and-Play-Modul, das sich in jedes vortrainierte VLM integrieren lässt. Sie nutzt einen Hybrid Fine-grained Region Encoder (HFRE), der einen dualen Vision-Encoder beinhaltet, um leistungsstarke Regionstokens zu generieren, die reich an semantischen und räumlichen Details sind. Ein tokenbasiertes Referenzsystem ermöglicht es dann dem LLM, nahtlos über diese spezifischen visuellen Regionen zu schließen und Sprache in ihnen zu verankern. Experimente zeigen, dass VLM-FO1 state-of-the-art Leistungen über eine vielfältige Suite von Benchmarks erzielt und außergewöhnliche Fähigkeiten in der Objektverankerung, dem Verständnis der Regionengenerierung und dem visuellen Regionenschluss demonstriert. Entscheidend ist, dass unsere zweistufige Trainingsstrategie sicherstellt, dass diese Wahrnehmungsgewinne erreicht werden, ohne die allgemeinen visuellen Verständnisfähigkeiten des Basismodells zu beeinträchtigen. VLM-FO1 etabliert ein effektives und flexibles Paradigma für den Aufbau wahrnehmungsbewusster VLMs und überbrückt die Lücke zwischen hochrangigem Schlussfolgern und feingranularer visueller Verankerung.
English
Vision-Language Models (VLMs) excel at high-level scene understanding but
falter on fine-grained perception tasks requiring precise localization. This
failure stems from a fundamental mismatch, as generating exact numerical
coordinates is a challenging task for language-centric architectures. In this
paper, we introduce VLM-FO1, a novel framework that overcomes this limitation
by reframing object-centric perception from a brittle coordinate generation
problem into a robust feature retrieval task. Our method operates as a
plug-and-play module that integrates with any pre-trained VLM. It leverages a
Hybrid Fine-grained Region Encoder (HFRE), featuring a dual vision encoder, to
generate powerful region tokens rich in both semantic and spatial detail. A
token-based referencing system then enables the LLM to seamlessly reason about
and ground language in these specific visual regions. Experiments show that
VLM-FO1 achieves state-of-the-art performance across a diverse suite of
benchmarks, demonstrating exceptional capabilities in object grounding, region
generational understanding, and visual region reasoning. Crucially, our
two-stage training strategy ensures that these perception gains are achieved
without compromising the base model's general visual understanding
capabilities. VLM-FO1 establishes an effective and flexible paradigm for
building perception-aware VLMs, bridging the gap between high-level reasoning
and fine-grained visual grounding.