ChatPaper.aiChatPaper

Visionary-R1: 強化学習を用いた視覚的推論におけるショートカットの軽減

Visionary-R1: Mitigating Shortcuts in Visual Reasoning with Reinforcement Learning

May 20, 2025
著者: Jiaer Xia, Yuhang Zang, Peng Gao, Yixuan Li, Kaiyang Zhou
cs.AI

要旨

汎用的な推論能力の学習は、長らくAIにおける難題とされてきた。大規模言語モデル(LLMs)に関する最近の研究、例えばDeepSeek-R1では、GRPOのような強化学習技術を用いることで、事前学習済みのLLMsが単純な質問応答ペアを用いて推論能力を発達させることが示されている。本論文では、視覚言語モデル(VLMs)を強化学習と視覚的質問応答ペアを用いて画像データ上で推論を行うように訓練することを目指し、明示的な連鎖的思考(CoT)の監督を一切行わない。我々の研究結果は、VLMに強化学習を単純に適用する――モデルに回答を提供する前に推論連鎖を生成するよう促す――ことで、モデルが簡単な質問からショートカットを学習し、その結果、未知のデータ分布に対する汎化能力が低下する可能性があることを示している。ショートカット学習を緩和する鍵は、モデルに推論の前に画像を解釈するよう促すことであると我々は主張する。そこで、モデルをキャプション-推論-回答という出力形式に従うように訓練する:最初に画像の詳細なキャプションを生成し、その後で広範な推論連鎖を構築する。273KのCoTを含まない視覚的質問応答ペアで訓練し、強化学習のみを使用した場合、我々のモデル「Visionary-R1」は、GPT-4o、Claude3.5-Sonnet、Gemini-1.5-Proといった強力なマルチモーダルモデルを複数の視覚的推論ベンチマークで上回る性能を示した。
English
Learning general-purpose reasoning capabilities has long been a challenging problem in AI. Recent research in large language models (LLMs), such as DeepSeek-R1, has shown that reinforcement learning techniques like GRPO can enable pre-trained LLMs to develop reasoning capabilities using simple question-answer pairs. In this paper, we aim to train visual language models (VLMs) to perform reasoning on image data through reinforcement learning and visual question-answer pairs, without any explicit chain-of-thought (CoT) supervision. Our findings indicate that simply applying reinforcement learning to a VLM -- by prompting the model to produce a reasoning chain before providing an answer -- can lead the model to develop shortcuts from easy questions, thereby reducing its ability to generalize across unseen data distributions. We argue that the key to mitigating shortcut learning is to encourage the model to interpret images prior to reasoning. Therefore, we train the model to adhere to a caption-reason-answer output format: initially generating a detailed caption for an image, followed by constructing an extensive reasoning chain. When trained on 273K CoT-free visual question-answer pairs and using only reinforcement learning, our model, named Visionary-R1, outperforms strong multimodal models, such as GPT-4o, Claude3.5-Sonnet, and Gemini-1.5-Pro, on multiple visual reasoning benchmarks.

Summary

AI-Generated Summary

PDF111May 21, 2025