VLM-FO1: Reduzindo a Lacuna entre Raciocínio de Alto Nível e Percepção de Detalhes em VLMs
VLM-FO1: Bridging the Gap Between High-Level Reasoning and Fine-Grained Perception in VLMs
September 30, 2025
Autores: Peng Liu, Haozhan Shen, Chunxin Fang, Zhicheng Sun, Jiajia Liao, Tiancheng Zhao
cs.AI
Resumo
Modelos Visão-Linguagem (VLMs) se destacam na compreensão de cenas de alto nível, mas falham em tarefas de percepção refinada que exigem localização precisa. Essa falha decorre de uma incompatibilidade fundamental, já que gerar coordenadas numéricas exatas é uma tarefa desafiadora para arquiteturas centradas em linguagem. Neste artigo, apresentamos o VLM-FO1, uma nova estrutura que supera essa limitação ao reformular a percepção centrada em objetos, transformando um problema frágil de geração de coordenadas em uma tarefa robusta de recuperação de características. Nosso método funciona como um módulo plug-and-play que se integra a qualquer VLM pré-treinado. Ele utiliza um Codificador de Região de Detalhe Híbrido (HFRE), que possui um codificador visual duplo, para gerar tokens de região poderosos, ricos em detalhes semânticos e espaciais. Um sistema de referência baseado em tokens permite que o LLM raciocine e ancore a linguagem nessas regiões visuais específicas de forma contínua. Experimentos mostram que o VLM-FO1 alcança desempenho de ponta em uma variedade de benchmarks, demonstrando capacidades excepcionais em ancoragem de objetos, compreensão geracional de regiões e raciocínio sobre regiões visuais. Crucialmente, nossa estratégia de treinamento em duas etapas garante que esses ganhos de percepção sejam alcançados sem comprometer as capacidades gerais de compreensão visual do modelo base. O VLM-FO1 estabelece um paradigma eficaz e flexível para a construção de VLMs conscientes da percepção, preenchendo a lacuna entre o raciocínio de alto nível e a ancoragem visual refinada.
English
Vision-Language Models (VLMs) excel at high-level scene understanding but
falter on fine-grained perception tasks requiring precise localization. This
failure stems from a fundamental mismatch, as generating exact numerical
coordinates is a challenging task for language-centric architectures. In this
paper, we introduce VLM-FO1, a novel framework that overcomes this limitation
by reframing object-centric perception from a brittle coordinate generation
problem into a robust feature retrieval task. Our method operates as a
plug-and-play module that integrates with any pre-trained VLM. It leverages a
Hybrid Fine-grained Region Encoder (HFRE), featuring a dual vision encoder, to
generate powerful region tokens rich in both semantic and spatial detail. A
token-based referencing system then enables the LLM to seamlessly reason about
and ground language in these specific visual regions. Experiments show that
VLM-FO1 achieves state-of-the-art performance across a diverse suite of
benchmarks, demonstrating exceptional capabilities in object grounding, region
generational understanding, and visual region reasoning. Crucially, our
two-stage training strategy ensures that these perception gains are achieved
without compromising the base model's general visual understanding
capabilities. VLM-FO1 establishes an effective and flexible paradigm for
building perception-aware VLMs, bridging the gap between high-level reasoning
and fine-grained visual grounding.