VLM-FO1 : Combler l'écart entre le raisonnement de haut niveau et la perception fine dans les modèles de langage visuel
VLM-FO1: Bridging the Gap Between High-Level Reasoning and Fine-Grained Perception in VLMs
September 30, 2025
papers.authors: Peng Liu, Haozhan Shen, Chunxin Fang, Zhicheng Sun, Jiajia Liao, Tiancheng Zhao
cs.AI
papers.abstract
Les modèles vision-langage (VLMs) excellent dans la compréhension globale des scènes mais peinent à accomplir des tâches de perception fine nécessitant une localisation précise. Cet échec découle d'une inadéquation fondamentale, car la génération de coordonnées numériques exactes constitue une tâche complexe pour les architectures centrées sur le langage. Dans cet article, nous présentons VLM-FO1, un cadre novateur qui surmonte cette limitation en reformulant la perception centrée sur les objets, passant d'un problème fragile de génération de coordonnées à une tâche robuste de récupération de caractéristiques. Notre méthode fonctionne comme un module plug-and-play qui s'intègre à tout VLM pré-entraîné. Elle exploite un Encodeur de Région Fine Hybride (HFRE), doté d'un double encodeur visuel, pour générer des tokens de région puissants, riches en détails sémantiques et spatiaux. Un système de référencement basé sur les tokens permet ensuite au LLM de raisonner de manière fluide et d'ancrer le langage dans ces régions visuelles spécifiques. Les expériences montrent que VLM-FO1 atteint des performances de pointe sur une série diversifiée de benchmarks, démontrant des capacités exceptionnelles en matière d'ancrage d'objets, de compréhension générationnelle des régions et de raisonnement sur les régions visuelles. De manière cruciale, notre stratégie d'entraînement en deux étapes garantit que ces gains de perception sont obtenus sans compromettre les capacités de compréhension visuelle générale du modèle de base. VLM-FO1 établit un paradigme efficace et flexible pour la construction de VLMs conscients de la perception, comblant ainsi l'écart entre le raisonnement de haut niveau et l'ancrage visuel fin.
English
Vision-Language Models (VLMs) excel at high-level scene understanding but
falter on fine-grained perception tasks requiring precise localization. This
failure stems from a fundamental mismatch, as generating exact numerical
coordinates is a challenging task for language-centric architectures. In this
paper, we introduce VLM-FO1, a novel framework that overcomes this limitation
by reframing object-centric perception from a brittle coordinate generation
problem into a robust feature retrieval task. Our method operates as a
plug-and-play module that integrates with any pre-trained VLM. It leverages a
Hybrid Fine-grained Region Encoder (HFRE), featuring a dual vision encoder, to
generate powerful region tokens rich in both semantic and spatial detail. A
token-based referencing system then enables the LLM to seamlessly reason about
and ground language in these specific visual regions. Experiments show that
VLM-FO1 achieves state-of-the-art performance across a diverse suite of
benchmarks, demonstrating exceptional capabilities in object grounding, region
generational understanding, and visual region reasoning. Crucially, our
two-stage training strategy ensures that these perception gains are achieved
without compromising the base model's general visual understanding
capabilities. VLM-FO1 establishes an effective and flexible paradigm for
building perception-aware VLMs, bridging the gap between high-level reasoning
and fine-grained visual grounding.