ChatPaper.aiChatPaper

Pixel Reasoner: 호기심 기반 강화 학습을 통한 픽셀 공간 추론 유도

Pixel Reasoner: Incentivizing Pixel-Space Reasoning with Curiosity-Driven Reinforcement Learning

May 21, 2025
저자: Alex Su, Haozhe Wang, Weimin Ren, Fangzhen Lin, Wenhu Chen
cs.AI

초록

사고의 연쇄(Chain-of-thought) 추론은 다양한 영역에서 대규모 언어 모델(LLMs)의 성능을 크게 향상시켰습니다. 그러나 이러한 추론 과정은 텍스트 공간에만 국한되어 시각적 작업에서의 효과가 제한적이었습니다. 이러한 한계를 해결하기 위해, 우리는 픽셀 공간에서의 추론 개념을 도입합니다. 이 새로운 프레임워크 내에서, 시각-언어 모델(VLMs)은 확대 및 프레임 선택과 같은 시각적 추론 연산 도구를 갖추게 됩니다. 이러한 연산을 통해 VLMs은 시각적 증거를 직접 검사, 질문 및 추론할 수 있어 시각적 작업에 대한 추론의 정확도를 향상시킵니다. VLMs에 이러한 픽셀 공간 추론 능력을 배양하는 것은 모델의 초기 불균형 능력과 새로 도입된 픽셀 공간 연산에 대한 저항과 같은 상당한 도전 과제를 제시합니다. 우리는 이러한 도전 과제를 두 단계의 학습 접근법으로 해결합니다. 첫 번째 단계에서는 합성된 추론 흔적에 대한 명령어 튜닝을 통해 모델이 새로운 시각적 연산에 익숙해지도록 합니다. 이후, 강화 학습(RL) 단계에서는 호기심 기반 보상 체계를 활용하여 픽셀 공간 추론과 텍스트 추론 간의 탐색 균형을 맞춥니다. 이러한 시각적 연산을 통해 VLMs은 정보가 풍부한 이미지나 비디오와 같은 복잡한 시각적 입력과 상호작용하며 필요한 정보를 능동적으로 수집할 수 있습니다. 우리는 이 접근법이 다양한 시각적 추론 벤치마크에서 VLM 성능을 크게 향상시킨다는 것을 입증합니다. 우리의 7B 모델, \model은 V* 벤치에서 84%, TallyQA-Complex에서 74%, InfographicsVQA에서 84%를 달성하여 현재까지 오픈소스 모델 중 가장 높은 정확도를 기록했습니다. 이러한 결과는 픽셀 공간 추론의 중요성과 우리 프레임워크의 효과를 강조합니다.
English
Chain-of-thought reasoning has significantly improved the performance of Large Language Models (LLMs) across various domains. However, this reasoning process has been confined exclusively to textual space, limiting its effectiveness in visually intensive tasks. To address this limitation, we introduce the concept of reasoning in the pixel-space. Within this novel framework, Vision-Language Models (VLMs) are equipped with a suite of visual reasoning operations, such as zoom-in and select-frame. These operations enable VLMs to directly inspect, interrogate, and infer from visual evidences, thereby enhancing reasoning fidelity for visual tasks. Cultivating such pixel-space reasoning capabilities in VLMs presents notable challenges, including the model's initially imbalanced competence and its reluctance to adopt the newly introduced pixel-space operations. We address these challenges through a two-phase training approach. The first phase employs instruction tuning on synthesized reasoning traces to familiarize the model with the novel visual operations. Following this, a reinforcement learning (RL) phase leverages a curiosity-driven reward scheme to balance exploration between pixel-space reasoning and textual reasoning. With these visual operations, VLMs can interact with complex visual inputs, such as information-rich images or videos to proactively gather necessary information. We demonstrate that this approach significantly improves VLM performance across diverse visual reasoning benchmarks. Our 7B model, \model, achieves 84\% on V* bench, 74\% on TallyQA-Complex, and 84\% on InfographicsVQA, marking the highest accuracy achieved by any open-source model to date. These results highlight the importance of pixel-space reasoning and the effectiveness of our framework.

Summary

AI-Generated Summary

PDF372May 23, 2025