Pixel Reasoner: Incentivizando el razonamiento en el espacio de píxeles con aprendizaje por refuerzo impulsado por la curiosidad
Pixel Reasoner: Incentivizing Pixel-Space Reasoning with Curiosity-Driven Reinforcement Learning
May 21, 2025
Autores: Alex Su, Haozhe Wang, Weimin Ren, Fangzhen Lin, Wenhu Chen
cs.AI
Resumen
El razonamiento de cadena de pensamiento ha mejorado significativamente el rendimiento de los Modelos de Lenguaje de Gran Escala (LLMs) en diversos dominios. Sin embargo, este proceso de razonamiento se ha limitado exclusivamente al espacio textual, lo que restringe su eficacia en tareas visualmente intensivas. Para abordar esta limitación, introducimos el concepto de razonamiento en el espacio de píxeles. Dentro de este novedoso marco, los Modelos de Visión y Lenguaje (VLMs) están equipados con un conjunto de operaciones de razonamiento visual, como acercar y seleccionar marco. Estas operaciones permiten a los VLMs inspeccionar, interrogar e inferir directamente a partir de evidencias visuales, mejorando así la fidelidad del razonamiento en tareas visuales. Cultivar tales capacidades de razonamiento en el espacio de píxeles en los VLMs presenta desafíos notables, incluyendo la competencia inicialmente desequilibrada del modelo y su renuencia a adoptar las nuevas operaciones en el espacio de píxeles. Abordamos estos desafíos mediante un enfoque de entrenamiento en dos fases. La primera fase emplea ajuste por instrucción en trazas de razonamiento sintetizadas para familiarizar al modelo con las nuevas operaciones visuales. Posteriormente, una fase de aprendizaje por refuerzo (RL) aprovecha un esquema de recompensa basado en la curiosidad para equilibrar la exploración entre el razonamiento en el espacio de píxeles y el razonamiento textual. Con estas operaciones visuales, los VLMs pueden interactuar con entradas visuales complejas, como imágenes o videos ricos en información, para recopilar proactivamente la información necesaria. Demostramos que este enfoque mejora significativamente el rendimiento de los VLMs en diversos benchmarks de razonamiento visual. Nuestro modelo de 7B, \model, alcanza un 84\% en V* bench, un 74\% en TallyQA-Complex y un 84\% en InfographicsVQA, marcando la mayor precisión lograda por cualquier modelo de código abierto hasta la fecha. Estos resultados resaltan la importancia del razonamiento en el espacio de píxeles y la efectividad de nuestro marco.
English
Chain-of-thought reasoning has significantly improved the performance of
Large Language Models (LLMs) across various domains. However, this reasoning
process has been confined exclusively to textual space, limiting its
effectiveness in visually intensive tasks. To address this limitation, we
introduce the concept of reasoning in the pixel-space. Within this novel
framework, Vision-Language Models (VLMs) are equipped with a suite of visual
reasoning operations, such as zoom-in and select-frame. These operations enable
VLMs to directly inspect, interrogate, and infer from visual evidences, thereby
enhancing reasoning fidelity for visual tasks. Cultivating such pixel-space
reasoning capabilities in VLMs presents notable challenges, including the
model's initially imbalanced competence and its reluctance to adopt the newly
introduced pixel-space operations. We address these challenges through a
two-phase training approach. The first phase employs instruction tuning on
synthesized reasoning traces to familiarize the model with the novel visual
operations. Following this, a reinforcement learning (RL) phase leverages a
curiosity-driven reward scheme to balance exploration between pixel-space
reasoning and textual reasoning. With these visual operations, VLMs can
interact with complex visual inputs, such as information-rich images or videos
to proactively gather necessary information. We demonstrate that this approach
significantly improves VLM performance across diverse visual reasoning
benchmarks. Our 7B model, \model, achieves 84\% on V* bench, 74\% on
TallyQA-Complex, and 84\% on InfographicsVQA, marking the highest accuracy
achieved by any open-source model to date. These results highlight the
importance of pixel-space reasoning and the effectiveness of our framework.Summary
AI-Generated Summary