VLM-FO1: Reduzindo a Lacuna entre Raciocínio de Alto Nível e Percepção de Detalhes em VLMs

Resumo

Modelos Visão-Linguagem (VLMs) se destacam na compreensão de cenas de alto nível, mas falham em tarefas de percepção refinada que exigem localização precisa. Essa falha decorre de uma incompatibilidade fundamental, já que gerar coordenadas numéricas exatas é uma tarefa desafiadora para arquiteturas centradas em linguagem. Neste artigo, apresentamos o VLM-FO1, uma nova estrutura que supera essa limitação ao reformular a percepção centrada em objetos, transformando um problema frágil de geração de coordenadas em uma tarefa robusta de recuperação de características. Nosso método funciona como um módulo plug-and-play que se integra a qualquer VLM pré-treinado. Ele utiliza um Codificador de Região de Detalhe Híbrido (HFRE), que possui um codificador visual duplo, para gerar tokens de região poderosos, ricos em detalhes semânticos e espaciais. Um sistema de referência baseado em tokens permite que o LLM raciocine e ancore a linguagem nessas regiões visuais específicas de forma contínua. Experimentos mostram que o VLM-FO1 alcança desempenho de ponta em uma variedade de benchmarks, demonstrando capacidades excepcionais em ancoragem de objetos, compreensão geracional de regiões e raciocínio sobre regiões visuais. Crucialmente, nossa estratégia de treinamento em duas etapas garante que esses ganhos de percepção sejam alcançados sem comprometer as capacidades gerais de compreensão visual do modelo base. O VLM-FO1 estabelece um paradigma eficaz e flexível para a construção de VLMs conscientes da percepção, preenchendo a lacuna entre o raciocínio de alto nível e a ancoragem visual refinada.

English

Vision-Language Models (VLMs) excel at high-level scene understanding but falter on fine-grained perception tasks requiring precise localization. This failure stems from a fundamental mismatch, as generating exact numerical coordinates is a challenging task for language-centric architectures. In this paper, we introduce VLM-FO1, a novel framework that overcomes this limitation by reframing object-centric perception from a brittle coordinate generation problem into a robust feature retrieval task. Our method operates as a plug-and-play module that integrates with any pre-trained VLM. It leverages a Hybrid Fine-grained Region Encoder (HFRE), featuring a dual vision encoder, to generate powerful region tokens rich in both semantic and spatial detail. A token-based referencing system then enables the LLM to seamlessly reason about and ground language in these specific visual regions. Experiments show that VLM-FO1 achieves state-of-the-art performance across a diverse suite of benchmarks, demonstrating exceptional capabilities in object grounding, region generational understanding, and visual region reasoning. Crucially, our two-stage training strategy ensures that these perception gains are achieved without compromising the base model's general visual understanding capabilities. VLM-FO1 establishes an effective and flexible paradigm for building perception-aware VLMs, bridging the gap between high-level reasoning and fine-grained visual grounding.

VLM-FO1: Reduzindo a Lacuna entre Raciocínio de Alto Nível e Percepção de Detalhes em VLMs

VLM-FO1: Bridging the Gap Between High-Level Reasoning and Fine-Grained Perception in VLMs

Resumo

Support