Pixel Reasoner: Incentivizzare il Ragionamento nello Spazio dei Pixel con l'Apprendimento per Rinforzo Guidato dalla Curiosità
Pixel Reasoner: Incentivizing Pixel-Space Reasoning with Curiosity-Driven Reinforcement Learning
May 21, 2025
Autori: Alex Su, Haozhe Wang, Weimin Ren, Fangzhen Lin, Wenhu Chen
cs.AI
Abstract
Il ragionamento a catena di pensiero ha migliorato significativamente le prestazioni dei Modelli Linguistici di Grande Dimensione (LLMs) in vari domini. Tuttavia, questo processo di ragionamento è stato confinato esclusivamente allo spazio testuale, limitandone l'efficacia nei compiti ad alta intensità visiva. Per affrontare questa limitazione, introduciamo il concetto di ragionamento nello spazio dei pixel. All'interno di questo nuovo framework, i Modelli Visione-Linguaggio (VLMs) sono dotati di una serie di operazioni di ragionamento visivo, come lo zoom e la selezione del frame. Queste operazioni consentono ai VLMs di ispezionare, interrogare e inferire direttamente dalle evidenze visive, migliorando così la fedeltà del ragionamento per i compiti visivi. Coltivare tali capacità di ragionamento nello spazio dei pixel nei VLMs presenta sfide significative, tra cui la competenza inizialmente squilibrata del modello e la sua riluttanza ad adottare le nuove operazioni nello spazio dei pixel. Affrontiamo queste sfide attraverso un approccio di addestramento in due fasi. La prima fase utilizza l'ottimizzazione delle istruzioni su tracce di ragionamento sintetizzate per familiarizzare il modello con le nuove operazioni visive. Successivamente, una fase di apprendimento per rinforzo (RL) sfrutta uno schema di ricompensa guidato dalla curiosità per bilanciare l'esplorazione tra il ragionamento nello spazio dei pixel e quello testuale. Con queste operazioni visive, i VLMs possono interagire con input visivi complessi, come immagini o video ricchi di informazioni, per raccogliere proattivamente le informazioni necessarie. Dimostriamo che questo approccio migliora significativamente le prestazioni dei VLMs su vari benchmark di ragionamento visivo. Il nostro modello da 7B, \model, raggiunge l'84\% su V* bench, il 74\% su TallyQA-Complex e l'84\% su InfographicsVQA, segnando la massima accuratezza raggiunta da qualsiasi modello open-source fino ad oggi. Questi risultati evidenziano l'importanza del ragionamento nello spazio dei pixel e l'efficacia del nostro framework.
English
Chain-of-thought reasoning has significantly improved the performance of
Large Language Models (LLMs) across various domains. However, this reasoning
process has been confined exclusively to textual space, limiting its
effectiveness in visually intensive tasks. To address this limitation, we
introduce the concept of reasoning in the pixel-space. Within this novel
framework, Vision-Language Models (VLMs) are equipped with a suite of visual
reasoning operations, such as zoom-in and select-frame. These operations enable
VLMs to directly inspect, interrogate, and infer from visual evidences, thereby
enhancing reasoning fidelity for visual tasks. Cultivating such pixel-space
reasoning capabilities in VLMs presents notable challenges, including the
model's initially imbalanced competence and its reluctance to adopt the newly
introduced pixel-space operations. We address these challenges through a
two-phase training approach. The first phase employs instruction tuning on
synthesized reasoning traces to familiarize the model with the novel visual
operations. Following this, a reinforcement learning (RL) phase leverages a
curiosity-driven reward scheme to balance exploration between pixel-space
reasoning and textual reasoning. With these visual operations, VLMs can
interact with complex visual inputs, such as information-rich images or videos
to proactively gather necessary information. We demonstrate that this approach
significantly improves VLM performance across diverse visual reasoning
benchmarks. Our 7B model, \model, achieves 84\% on V* bench, 74\% on
TallyQA-Complex, and 84\% on InfographicsVQA, marking the highest accuracy
achieved by any open-source model to date. These results highlight the
importance of pixel-space reasoning and the effectiveness of our framework.