Pixel Reasoner: Стимулирование рассуждений в пиксельном пространстве с помощью обучения с подкреплением, основанного на любопытстве
Pixel Reasoner: Incentivizing Pixel-Space Reasoning with Curiosity-Driven Reinforcement Learning
May 21, 2025
Авторы: Alex Su, Haozhe Wang, Weimin Ren, Fangzhen Lin, Wenhu Chen
cs.AI
Аннотация
Цепочка рассуждений (chain-of-thought reasoning) значительно улучшила производительность больших языковых моделей (LLMs) в различных областях. Однако этот процесс рассуждения до сих пор ограничивался исключительно текстовым пространством, что снижало его эффективность в задачах, требующих интенсивной визуальной обработки. Для преодоления этого ограничения мы вводим концепцию рассуждений в пространстве пикселей. В рамках этой новой концепции модели, объединяющие зрение и язык (Vision-Language Models, VLMs), оснащаются набором операций визуального рассуждения, таких как увеличение и выбор кадра. Эти операции позволяют VLMs напрямую анализировать, исследовать и делать выводы на основе визуальных данных, тем самым повышая точность рассуждений в визуальных задачах. Развитие таких способностей к рассуждению в пространстве пикселей у VLMs сопряжено с рядом вызовов, включая изначально несбалансированную компетентность модели и её нежелание использовать новые операции в пространстве пикселей. Мы решаем эти проблемы с помощью двухэтапного подхода к обучению. На первом этапе используется настройка на инструкциях с использованием синтезированных траекторий рассуждений, чтобы ознакомить модель с новыми визуальными операциями. Затем этап обучения с подкреплением (RL) использует схему вознаграждения, основанную на любопытстве, чтобы сбалансировать исследование между рассуждениями в пространстве пикселей и текстовыми рассуждениями. Благодаря этим визуальным операциям VLMs могут взаимодействовать со сложными визуальными данными, такими как насыщенные информацией изображения или видео, чтобы активно собирать необходимую информацию. Мы демонстрируем, что этот подход значительно улучшает производительность VLMs на различных тестах визуального рассуждения. Наша модель на 7 миллиардов параметров, \model, достигает 84\% на V* bench, 74\% на TallyQA-Complex и 84\% на InfographicsVQA, что является наивысшей точностью среди всех открытых моделей на сегодняшний день. Эти результаты подчеркивают важность рассуждений в пространстве пикселей и эффективность нашей концепции.
English
Chain-of-thought reasoning has significantly improved the performance of
Large Language Models (LLMs) across various domains. However, this reasoning
process has been confined exclusively to textual space, limiting its
effectiveness in visually intensive tasks. To address this limitation, we
introduce the concept of reasoning in the pixel-space. Within this novel
framework, Vision-Language Models (VLMs) are equipped with a suite of visual
reasoning operations, such as zoom-in and select-frame. These operations enable
VLMs to directly inspect, interrogate, and infer from visual evidences, thereby
enhancing reasoning fidelity for visual tasks. Cultivating such pixel-space
reasoning capabilities in VLMs presents notable challenges, including the
model's initially imbalanced competence and its reluctance to adopt the newly
introduced pixel-space operations. We address these challenges through a
two-phase training approach. The first phase employs instruction tuning on
synthesized reasoning traces to familiarize the model with the novel visual
operations. Following this, a reinforcement learning (RL) phase leverages a
curiosity-driven reward scheme to balance exploration between pixel-space
reasoning and textual reasoning. With these visual operations, VLMs can
interact with complex visual inputs, such as information-rich images or videos
to proactively gather necessary information. We demonstrate that this approach
significantly improves VLM performance across diverse visual reasoning
benchmarks. Our 7B model, \model, achieves 84\% on V* bench, 74\% on
TallyQA-Complex, and 84\% on InfographicsVQA, marking the highest accuracy
achieved by any open-source model to date. These results highlight the
importance of pixel-space reasoning and the effectiveness of our framework.Summary
AI-Generated Summary