Pixel Reasoner: Incentivando o Raciocínio no Espaço de Pixels com Aprendizado por Reforço Guiado pela Curiosidade
Pixel Reasoner: Incentivizing Pixel-Space Reasoning with Curiosity-Driven Reinforcement Learning
May 21, 2025
Autores: Alex Su, Haozhe Wang, Weimin Ren, Fangzhen Lin, Wenhu Chen
cs.AI
Resumo
O raciocínio em cadeia de pensamento melhorou significativamente o desempenho de Modelos de Linguagem de Grande Escala (LLMs) em diversos domínios. No entanto, esse processo de raciocínio tem sido confinado exclusivamente ao espaço textual, limitando sua eficácia em tarefas visualmente intensivas. Para superar essa limitação, introduzimos o conceito de raciocínio no espaço de pixels. Nessa nova estrutura, Modelos de Visão e Linguagem (VLMs) são equipados com um conjunto de operações de raciocínio visual, como zoom e seleção de quadro. Essas operações permitem que os VLMs inspecionem, interroguem e infiram diretamente a partir de evidências visuais, aumentando assim a fidelidade do raciocínio em tarefas visuais. Cultivar tais capacidades de raciocínio no espaço de pixels em VLMs apresenta desafios notáveis, incluindo a competência inicialmente desequilibrada do modelo e sua relutância em adotar as novas operações no espaço de pixels. Abordamos esses desafios por meio de uma abordagem de treinamento em duas fases. A primeira fase emprega ajuste por instrução em traços de raciocínio sintetizados para familiarizar o modelo com as novas operações visuais. Em seguida, uma fase de aprendizado por reforço (RL) utiliza um esquema de recompensa baseado em curiosidade para equilibrar a exploração entre o raciocínio no espaço de pixels e o raciocínio textual. Com essas operações visuais, os VLMs podem interagir com entradas visuais complexas, como imagens ou vídeos ricos em informações, para coletar proativamente as informações necessárias. Demonstramos que essa abordagem melhora significativamente o desempenho dos VLMs em diversos benchmarks de raciocínio visual. Nosso modelo de 7B, \model, alcança 84% no V* bench, 74% no TallyQA-Complex e 84% no InfographicsVQA, marcando a maior precisão alcançada por qualquer modelo de código aberto até o momento. Esses resultados destacam a importância do raciocínio no espaço de pixels e a eficácia de nossa estrutura.
English
Chain-of-thought reasoning has significantly improved the performance of
Large Language Models (LLMs) across various domains. However, this reasoning
process has been confined exclusively to textual space, limiting its
effectiveness in visually intensive tasks. To address this limitation, we
introduce the concept of reasoning in the pixel-space. Within this novel
framework, Vision-Language Models (VLMs) are equipped with a suite of visual
reasoning operations, such as zoom-in and select-frame. These operations enable
VLMs to directly inspect, interrogate, and infer from visual evidences, thereby
enhancing reasoning fidelity for visual tasks. Cultivating such pixel-space
reasoning capabilities in VLMs presents notable challenges, including the
model's initially imbalanced competence and its reluctance to adopt the newly
introduced pixel-space operations. We address these challenges through a
two-phase training approach. The first phase employs instruction tuning on
synthesized reasoning traces to familiarize the model with the novel visual
operations. Following this, a reinforcement learning (RL) phase leverages a
curiosity-driven reward scheme to balance exploration between pixel-space
reasoning and textual reasoning. With these visual operations, VLMs can
interact with complex visual inputs, such as information-rich images or videos
to proactively gather necessary information. We demonstrate that this approach
significantly improves VLM performance across diverse visual reasoning
benchmarks. Our 7B model, \model, achieves 84\% on V* bench, 74\% on
TallyQA-Complex, and 84\% on InfographicsVQA, marking the highest accuracy
achieved by any open-source model to date. These results highlight the
importance of pixel-space reasoning and the effectiveness of our framework.