Pixel Reasoner : Encourager le raisonnement dans l'espace des pixels grâce à l'apprentissage par renforcement piloté par la curiosité
Pixel Reasoner: Incentivizing Pixel-Space Reasoning with Curiosity-Driven Reinforcement Learning
May 21, 2025
Auteurs: Alex Su, Haozhe Wang, Weimin Ren, Fangzhen Lin, Wenhu Chen
cs.AI
Résumé
Le raisonnement en chaîne de pensée a considérablement amélioré les performances des grands modèles de langage (LLMs) dans divers domaines. Cependant, ce processus de raisonnement a été confiné exclusivement à l'espace textuel, limitant ainsi son efficacité dans les tâches visuellement complexes. Pour pallier cette limitation, nous introduisons le concept de raisonnement dans l'espace des pixels. Dans ce cadre novateur, les modèles vision-langage (VLMs) sont dotés d'un ensemble d'opérations de raisonnement visuel, telles que le zoom et la sélection de cadre. Ces opérations permettent aux VLMs d'inspecter, d'interroger et de déduire directement à partir de preuves visuelles, améliorant ainsi la fidélité du raisonnement pour les tâches visuelles. Cultiver de telles capacités de raisonnement dans l'espace des pixels chez les VLMs présente des défis notables, notamment la compétence initialement déséquilibrée du modèle et sa réticence à adopter les nouvelles opérations dans l'espace des pixels. Nous abordons ces défis grâce à une approche de formation en deux phases. La première phase utilise un réglage par instruction sur des traces de raisonnement synthétisées pour familiariser le modèle avec les nouvelles opérations visuelles. Ensuite, une phase d'apprentissage par renforcement (RL) exploite un schéma de récompense basé sur la curiosité pour équilibrer l'exploration entre le raisonnement dans l'espace des pixels et le raisonnement textuel. Grâce à ces opérations visuelles, les VLMs peuvent interagir avec des entrées visuelles complexes, telles que des images ou des vidéos riches en informations, pour collecter de manière proactive les informations nécessaires. Nous démontrons que cette approche améliore significativement les performances des VLMs sur divers benchmarks de raisonnement visuel. Notre modèle de 7B, \model, atteint 84\% sur V* bench, 74\% sur TallyQA-Complex, et 84\% sur InfographicsVQA, marquant ainsi la plus haute précision jamais atteinte par un modèle open-source à ce jour. Ces résultats soulignent l'importance du raisonnement dans l'espace des pixels et l'efficacité de notre cadre.
English
Chain-of-thought reasoning has significantly improved the performance of
Large Language Models (LLMs) across various domains. However, this reasoning
process has been confined exclusively to textual space, limiting its
effectiveness in visually intensive tasks. To address this limitation, we
introduce the concept of reasoning in the pixel-space. Within this novel
framework, Vision-Language Models (VLMs) are equipped with a suite of visual
reasoning operations, such as zoom-in and select-frame. These operations enable
VLMs to directly inspect, interrogate, and infer from visual evidences, thereby
enhancing reasoning fidelity for visual tasks. Cultivating such pixel-space
reasoning capabilities in VLMs presents notable challenges, including the
model's initially imbalanced competence and its reluctance to adopt the newly
introduced pixel-space operations. We address these challenges through a
two-phase training approach. The first phase employs instruction tuning on
synthesized reasoning traces to familiarize the model with the novel visual
operations. Following this, a reinforcement learning (RL) phase leverages a
curiosity-driven reward scheme to balance exploration between pixel-space
reasoning and textual reasoning. With these visual operations, VLMs can
interact with complex visual inputs, such as information-rich images or videos
to proactively gather necessary information. We demonstrate that this approach
significantly improves VLM performance across diverse visual reasoning
benchmarks. Our 7B model, \model, achieves 84\% on V* bench, 74\% on
TallyQA-Complex, and 84\% on InfographicsVQA, marking the highest accuracy
achieved by any open-source model to date. These results highlight the
importance of pixel-space reasoning and the effectiveness of our framework.Summary
AI-Generated Summary