VLM-FO1: Colmare il divario tra ragionamento di alto livello e percezione fine nei VLM
VLM-FO1: Bridging the Gap Between High-Level Reasoning and Fine-Grained Perception in VLMs
September 30, 2025
Autori: Peng Liu, Haozhan Shen, Chunxin Fang, Zhicheng Sun, Jiajia Liao, Tiancheng Zhao
cs.AI
Abstract
I modelli visione-linguaggio (VLMs) eccellono nella comprensione di scene ad alto livello, ma incontrano difficoltà nei compiti di percezione fine che richiedono una localizzazione precisa. Questo fallimento deriva da una discrepanza fondamentale, poiché generare coordinate numeriche esatte è un compito impegnativo per architetture centrate sul linguaggio. In questo articolo, introduciamo VLM-FO1, un nuovo framework che supera questa limitazione riformulando la percezione centrata sugli oggetti da un problema fragile di generazione di coordinate a un compito robusto di recupero di feature. Il nostro metodo funziona come un modulo plug-and-play che si integra con qualsiasi VLM pre-addestrato. Sfrutta un Hybrid Fine-grained Region Encoder (HFRE), dotato di un doppio encoder visivo, per generare potenti token di regione ricchi di dettagli sia semantici che spaziali. Un sistema di riferimento basato su token consente quindi al LLM di ragionare in modo fluido e ancorare il linguaggio a queste specifiche regioni visive. Gli esperimenti dimostrano che VLM-FO1 raggiunge prestazioni all'avanguardia su una vasta gamma di benchmark, mostrando capacità eccezionali nell'ancoraggio degli oggetti, nella comprensione generativa delle regioni e nel ragionamento sulle regioni visive. Fondamentalmente, la nostra strategia di addestramento in due fasi garantisce che questi miglioramenti percettivi siano ottenuti senza compromettere le capacità di comprensione visiva generale del modello di base. VLM-FO1 stabilisce un paradigma efficace e flessibile per costruire VLMs consapevoli della percezione, colmando il divario tra il ragionamento ad alto livello e l'ancoraggio visivo fine.
English
Vision-Language Models (VLMs) excel at high-level scene understanding but
falter on fine-grained perception tasks requiring precise localization. This
failure stems from a fundamental mismatch, as generating exact numerical
coordinates is a challenging task for language-centric architectures. In this
paper, we introduce VLM-FO1, a novel framework that overcomes this limitation
by reframing object-centric perception from a brittle coordinate generation
problem into a robust feature retrieval task. Our method operates as a
plug-and-play module that integrates with any pre-trained VLM. It leverages a
Hybrid Fine-grained Region Encoder (HFRE), featuring a dual vision encoder, to
generate powerful region tokens rich in both semantic and spatial detail. A
token-based referencing system then enables the LLM to seamlessly reason about
and ground language in these specific visual regions. Experiments show that
VLM-FO1 achieves state-of-the-art performance across a diverse suite of
benchmarks, demonstrating exceptional capabilities in object grounding, region
generational understanding, and visual region reasoning. Crucially, our
two-stage training strategy ensures that these perception gains are achieved
without compromising the base model's general visual understanding
capabilities. VLM-FO1 establishes an effective and flexible paradigm for
building perception-aware VLMs, bridging the gap between high-level reasoning
and fine-grained visual grounding.