Pixel Reasoner: Het stimuleren van redeneren in pixelruimte met nieuwsgierigheid-gestuurd reinforcement learning
Pixel Reasoner: Incentivizing Pixel-Space Reasoning with Curiosity-Driven Reinforcement Learning
May 21, 2025
Auteurs: Alex Su, Haozhe Wang, Weimin Ren, Fangzhen Lin, Wenhu Chen
cs.AI
Samenvatting
Chain-of-thought redeneren heeft de prestaties van Large Language Models (LLMs) aanzienlijk verbeterd in diverse domeinen. Dit redeneerproces is echter tot nu toe beperkt gebleven tot de tekstuele ruimte, wat de effectiviteit ervan beperkt bij visueel intensieve taken. Om deze beperking aan te pakken, introduceren we het concept van redeneren in de pixelruimte. Binnen dit nieuwe raamwerk worden Vision-Language Models (VLMs) uitgerust met een reeks visuele redeneeroperaties, zoals inzoomen en frame-selectie. Deze operaties stellen VLMs in staat om visuele bewijzen direct te inspecteren, te bevragen en daaruit af te leiden, waardoor de redeneernauwkeurigheid voor visuele taken wordt verbeterd. Het ontwikkelen van dergelijke pixelruimte-redeneervaardigheden in VLMs brengt aanzienlijke uitdagingen met zich mee, waaronder de aanvankelijk onevenwichtige competentie van het model en diens terughoudendheid om de nieuw geïntroduceerde pixelruimte-operaties te omarmen. We pakken deze uitdagingen aan via een tweefasige trainingsaanpak. De eerste fase maakt gebruik van instructieafstemming op gesynthetiseerde redeneersporen om het model vertrouwd te maken met de nieuwe visuele operaties. Hierna volgt een reinforcement learning (RL)-fase die gebruikmaakt van een nieuwsgierigheid-gestuurd beloningsschema om de balans te vinden tussen exploratie in de pixelruimte en tekstueel redeneren. Met deze visuele operaties kunnen VLMs interacteren met complexe visuele inputs, zoals informatie-rijke afbeeldingen of video's, om proactief de benodigde informatie te verzamelen. We tonen aan dat deze aanpak de prestaties van VLMs aanzienlijk verbetert op diverse visuele redeneerbenchmarks. Ons 7B-model, \model, behaalt 84\% op V* bench, 74\% op TallyQA-Complex en 84\% op InfographicsVQA, wat de hoogste nauwkeurigheid is die tot nu toe door een open-source model is bereikt. Deze resultaten onderstrepen het belang van pixelruimte-redeneren en de effectiviteit van ons raamwerk.
English
Chain-of-thought reasoning has significantly improved the performance of
Large Language Models (LLMs) across various domains. However, this reasoning
process has been confined exclusively to textual space, limiting its
effectiveness in visually intensive tasks. To address this limitation, we
introduce the concept of reasoning in the pixel-space. Within this novel
framework, Vision-Language Models (VLMs) are equipped with a suite of visual
reasoning operations, such as zoom-in and select-frame. These operations enable
VLMs to directly inspect, interrogate, and infer from visual evidences, thereby
enhancing reasoning fidelity for visual tasks. Cultivating such pixel-space
reasoning capabilities in VLMs presents notable challenges, including the
model's initially imbalanced competence and its reluctance to adopt the newly
introduced pixel-space operations. We address these challenges through a
two-phase training approach. The first phase employs instruction tuning on
synthesized reasoning traces to familiarize the model with the novel visual
operations. Following this, a reinforcement learning (RL) phase leverages a
curiosity-driven reward scheme to balance exploration between pixel-space
reasoning and textual reasoning. With these visual operations, VLMs can
interact with complex visual inputs, such as information-rich images or videos
to proactively gather necessary information. We demonstrate that this approach
significantly improves VLM performance across diverse visual reasoning
benchmarks. Our 7B model, \model, achieves 84\% on V* bench, 74\% on
TallyQA-Complex, and 84\% on InfographicsVQA, marking the highest accuracy
achieved by any open-source model to date. These results highlight the
importance of pixel-space reasoning and the effectiveness of our framework.