Pixel Reasoner : Encourager le raisonnement dans l'espace des pixels grâce à l'apprentissage par renforcement piloté par la curiosité

papers.abstract

Le raisonnement en chaîne de pensée a considérablement amélioré les performances des grands modèles de langage (LLMs) dans divers domaines. Cependant, ce processus de raisonnement a été confiné exclusivement à l'espace textuel, limitant ainsi son efficacité dans les tâches visuellement complexes. Pour pallier cette limitation, nous introduisons le concept de raisonnement dans l'espace des pixels. Dans ce cadre novateur, les modèles vision-langage (VLMs) sont dotés d'un ensemble d'opérations de raisonnement visuel, telles que le zoom et la sélection de cadre. Ces opérations permettent aux VLMs d'inspecter, d'interroger et de déduire directement à partir de preuves visuelles, améliorant ainsi la fidélité du raisonnement pour les tâches visuelles. Cultiver de telles capacités de raisonnement dans l'espace des pixels chez les VLMs présente des défis notables, notamment la compétence initialement déséquilibrée du modèle et sa réticence à adopter les nouvelles opérations dans l'espace des pixels. Nous abordons ces défis grâce à une approche de formation en deux phases. La première phase utilise un réglage par instruction sur des traces de raisonnement synthétisées pour familiariser le modèle avec les nouvelles opérations visuelles. Ensuite, une phase d'apprentissage par renforcement (RL) exploite un schéma de récompense basé sur la curiosité pour équilibrer l'exploration entre le raisonnement dans l'espace des pixels et le raisonnement textuel. Grâce à ces opérations visuelles, les VLMs peuvent interagir avec des entrées visuelles complexes, telles que des images ou des vidéos riches en informations, pour collecter de manière proactive les informations nécessaires. Nous démontrons que cette approche améliore significativement les performances des VLMs sur divers benchmarks de raisonnement visuel. Notre modèle de 7B, \model, atteint 84\% sur V* bench, 74\% sur TallyQA-Complex, et 84\% sur InfographicsVQA, marquant ainsi la plus haute précision jamais atteinte par un modèle open-source à ce jour. Ces résultats soulignent l'importance du raisonnement dans l'espace des pixels et l'efficacité de notre cadre.

English

Chain-of-thought reasoning has significantly improved the performance of Large Language Models (LLMs) across various domains. However, this reasoning process has been confined exclusively to textual space, limiting its effectiveness in visually intensive tasks. To address this limitation, we introduce the concept of reasoning in the pixel-space. Within this novel framework, Vision-Language Models (VLMs) are equipped with a suite of visual reasoning operations, such as zoom-in and select-frame. These operations enable VLMs to directly inspect, interrogate, and infer from visual evidences, thereby enhancing reasoning fidelity for visual tasks. Cultivating such pixel-space reasoning capabilities in VLMs presents notable challenges, including the model's initially imbalanced competence and its reluctance to adopt the newly introduced pixel-space operations. We address these challenges through a two-phase training approach. The first phase employs instruction tuning on synthesized reasoning traces to familiarize the model with the novel visual operations. Following this, a reinforcement learning (RL) phase leverages a curiosity-driven reward scheme to balance exploration between pixel-space reasoning and textual reasoning. With these visual operations, VLMs can interact with complex visual inputs, such as information-rich images or videos to proactively gather necessary information. We demonstrate that this approach significantly improves VLM performance across diverse visual reasoning benchmarks. Our 7B model, \model, achieves 84\% on V* bench, 74\% on TallyQA-Complex, and 84\% on InfographicsVQA, marking the highest accuracy achieved by any open-source model to date. These results highlight the importance of pixel-space reasoning and the effectiveness of our framework.

Pixel Reasoner : Encourager le raisonnement dans l'espace des pixels grâce à l'apprentissage par renforcement piloté par la curiosité

Pixel Reasoner: Incentivizing Pixel-Space Reasoning with Curiosity-Driven Reinforcement Learning

papers.abstract

Support