VLM-FO1 : Combler l'écart entre le raisonnement de haut niveau et la perception fine dans les modèles de langage visuel

papers.abstract

Les modèles vision-langage (VLMs) excellent dans la compréhension globale des scènes mais peinent à accomplir des tâches de perception fine nécessitant une localisation précise. Cet échec découle d'une inadéquation fondamentale, car la génération de coordonnées numériques exactes constitue une tâche complexe pour les architectures centrées sur le langage. Dans cet article, nous présentons VLM-FO1, un cadre novateur qui surmonte cette limitation en reformulant la perception centrée sur les objets, passant d'un problème fragile de génération de coordonnées à une tâche robuste de récupération de caractéristiques. Notre méthode fonctionne comme un module plug-and-play qui s'intègre à tout VLM pré-entraîné. Elle exploite un Encodeur de Région Fine Hybride (HFRE), doté d'un double encodeur visuel, pour générer des tokens de région puissants, riches en détails sémantiques et spatiaux. Un système de référencement basé sur les tokens permet ensuite au LLM de raisonner de manière fluide et d'ancrer le langage dans ces régions visuelles spécifiques. Les expériences montrent que VLM-FO1 atteint des performances de pointe sur une série diversifiée de benchmarks, démontrant des capacités exceptionnelles en matière d'ancrage d'objets, de compréhension générationnelle des régions et de raisonnement sur les régions visuelles. De manière cruciale, notre stratégie d'entraînement en deux étapes garantit que ces gains de perception sont obtenus sans compromettre les capacités de compréhension visuelle générale du modèle de base. VLM-FO1 établit un paradigme efficace et flexible pour la construction de VLMs conscients de la perception, comblant ainsi l'écart entre le raisonnement de haut niveau et l'ancrage visuel fin.

English

Vision-Language Models (VLMs) excel at high-level scene understanding but falter on fine-grained perception tasks requiring precise localization. This failure stems from a fundamental mismatch, as generating exact numerical coordinates is a challenging task for language-centric architectures. In this paper, we introduce VLM-FO1, a novel framework that overcomes this limitation by reframing object-centric perception from a brittle coordinate generation problem into a robust feature retrieval task. Our method operates as a plug-and-play module that integrates with any pre-trained VLM. It leverages a Hybrid Fine-grained Region Encoder (HFRE), featuring a dual vision encoder, to generate powerful region tokens rich in both semantic and spatial detail. A token-based referencing system then enables the LLM to seamlessly reason about and ground language in these specific visual regions. Experiments show that VLM-FO1 achieves state-of-the-art performance across a diverse suite of benchmarks, demonstrating exceptional capabilities in object grounding, region generational understanding, and visual region reasoning. Crucially, our two-stage training strategy ensures that these perception gains are achieved without compromising the base model's general visual understanding capabilities. VLM-FO1 establishes an effective and flexible paradigm for building perception-aware VLMs, bridging the gap between high-level reasoning and fine-grained visual grounding.

VLM-FO1 : Combler l'écart entre le raisonnement de haut niveau et la perception fine dans les modèles de langage visuel

VLM-FO1: Bridging the Gap Between High-Level Reasoning and Fine-Grained Perception in VLMs

papers.abstract

Support