Pixel Reasoner: Anreiz für Pixelraum-basiertes Denken durch Neugier-getriebenes Reinforcement Learning
Pixel Reasoner: Incentivizing Pixel-Space Reasoning with Curiosity-Driven Reinforcement Learning
May 21, 2025
Autoren: Alex Su, Haozhe Wang, Weimin Ren, Fangzhen Lin, Wenhu Chen
cs.AI
Zusammenfassung
Chain-of-Thought-Reasoning hat die Leistung von Large Language Models (LLMs) in verschiedenen Domänen erheblich verbessert. Dieser Denkprozess war jedoch ausschließlich auf den Textraum beschränkt, was seine Wirksamkeit bei visuell anspruchsvollen Aufgaben einschränkte. Um diese Einschränkung zu überwinden, führen wir das Konzept des Denkens im Pixelraum ein. In diesem neuartigen Framework werden Vision-Language Models (VLMs) mit einer Reihe von visuellen Denkoperationen ausgestattet, wie beispielsweise Zoom-in und Frame-Auswahl. Diese Operationen ermöglichen es VLMs, visuelle Beweise direkt zu untersuchen, zu hinterfragen und daraus Schlussfolgerungen zu ziehen, wodurch die Denkgenauigkeit bei visuellen Aufgaben verbessert wird. Die Entwicklung solcher Pixelraum-Denkfähigkeiten in VLMs stellt jedoch erhebliche Herausforderungen dar, darunter die anfänglich unausgewogene Kompetenz des Modells und seine Zurückhaltung, die neu eingeführten Pixelraum-Operationen zu übernehmen. Wir adressieren diese Herausforderungen durch einen zweiphasigen Trainingsansatz. In der ersten Phase wird das Modell durch Instruction Tuning an synthetisierten Denkspuren mit den neuen visuellen Operationen vertraut gemacht. Darauf folgt eine Reinforcement-Learning-(RL)-Phase, die ein neugiergetriebenes Belohnungsschema nutzt, um die Exploration zwischen Pixelraum-Denken und textbasiertem Denken auszugleichen. Mit diesen visuellen Operationen können VLMs mit komplexen visuellen Eingaben, wie informationsreichen Bildern oder Videos, interagieren, um proaktiv notwendige Informationen zu sammeln. Wir zeigen, dass dieser Ansatz die Leistung von VLMs in verschiedenen visuellen Denkbenchmarks signifikant verbessert. Unser 7B-Modell, \model, erreicht 84 % auf V* Bench, 74 % auf TallyQA-Complex und 84 % auf InfographicsVQA, was die höchste Genauigkeit darstellt, die bisher von einem Open-Source-Modell erreicht wurde. Diese Ergebnisse unterstreichen die Bedeutung des Denkens im Pixelraum und die Effektivität unseres Frameworks.
English
Chain-of-thought reasoning has significantly improved the performance of
Large Language Models (LLMs) across various domains. However, this reasoning
process has been confined exclusively to textual space, limiting its
effectiveness in visually intensive tasks. To address this limitation, we
introduce the concept of reasoning in the pixel-space. Within this novel
framework, Vision-Language Models (VLMs) are equipped with a suite of visual
reasoning operations, such as zoom-in and select-frame. These operations enable
VLMs to directly inspect, interrogate, and infer from visual evidences, thereby
enhancing reasoning fidelity for visual tasks. Cultivating such pixel-space
reasoning capabilities in VLMs presents notable challenges, including the
model's initially imbalanced competence and its reluctance to adopt the newly
introduced pixel-space operations. We address these challenges through a
two-phase training approach. The first phase employs instruction tuning on
synthesized reasoning traces to familiarize the model with the novel visual
operations. Following this, a reinforcement learning (RL) phase leverages a
curiosity-driven reward scheme to balance exploration between pixel-space
reasoning and textual reasoning. With these visual operations, VLMs can
interact with complex visual inputs, such as information-rich images or videos
to proactively gather necessary information. We demonstrate that this approach
significantly improves VLM performance across diverse visual reasoning
benchmarks. Our 7B model, \model, achieves 84\% on V* bench, 74\% on
TallyQA-Complex, and 84\% on InfographicsVQA, marking the highest accuracy
achieved by any open-source model to date. These results highlight the
importance of pixel-space reasoning and the effectiveness of our framework.Summary
AI-Generated Summary