OpenVLThinker: 反復的な自己改善による複雑な視覚-言語推論への初期探求
OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement
March 21, 2025
著者: Yihe Deng, Hritik Bansal, Fan Yin, Nanyun Peng, Wei Wang, Kai-Wei Chang
cs.AI
要旨
DeepSeek-R1による最近の進展は、検証可能な報酬を用いた強化学習(RL)によって、大規模言語モデル(LLMs)における複雑な推論能力、自己検証や自己修正といった高度な振る舞いが実現可能であり、AIMEのような難易度の高いタスクにおいてモデルの性能が大幅に向上することを示しました。これらの知見に基づき、本研究では、同様の推論能力が大規模視覚言語モデル(LVLMs)に統合できるかどうかを調査し、難易度の高いマルチモーダル推論タスクへの影響を評価します。我々は、軽量なトレーニングデータに対する教師ありファインチューニング(SFT)と強化学習(RL)を反復的に活用してモデルの汎化性能をさらに向上させるアプローチを検討しました。最初に、純粋なテキストのR1モデルから推論能力を蒸留し、多様な視覚データセットから得られた高品質な画像キャプションを使用して推論ステップを生成しました。その後、反復的なRLトレーニングによって推論スキルがさらに強化され、各反復でRLによって改善されたモデルが次のラウンドのための洗練されたSFTデータセットを生成しました。この反復プロセスにより、MathVista、MathVerse、MathVisionといった難易度の高いベンチマークにおいて一貫して改善された推論性能を示すLVLMであるOpenVLThinkerが得られ、我々の戦略が堅牢な視覚言語推論の可能性を実証しました。コード、モデル、データはhttps://github.com/yihedeng9/OpenVLThinkerにて公開されています。
English
Recent advancements demonstrated by DeepSeek-R1 have shown that complex
reasoning abilities in large language models (LLMs), including sophisticated
behaviors such as self-verification and self-correction, can be achieved by RL
with verifiable rewards and significantly improves model performance on
challenging tasks such as AIME. Motivated by these findings, our study
investigates whether similar reasoning capabilities can be successfully
integrated into large vision-language models (LVLMs) and assesses their impact
on challenging multimodal reasoning tasks. We consider an approach that
iteratively leverages supervised fine-tuning (SFT) on lightweight training data
and Reinforcement Learning (RL) to further improve model generalization.
Initially, reasoning capabilities were distilled from pure-text R1 models by
generating reasoning steps using high-quality captions of the images sourced
from diverse visual datasets. Subsequently, iterative RL training further
enhance reasoning skills, with each iteration's RL-improved model generating
refined SFT datasets for the next round. This iterative process yielded
OpenVLThinker, a LVLM exhibiting consistently improved reasoning performance on
challenging benchmarks such as MathVista, MathVerse, and MathVision,
demonstrating the potential of our strategy for robust vision-language
reasoning. The code, model and data are held at
https://github.com/yihedeng9/OpenVLThinker.Summary
AI-Generated Summary