R1ゼロライクトレーニングによる視覚空間推論能力の向上
Improved Visual-Spatial Reasoning via R1-Zero-Like Training
April 1, 2025
著者: Zhenyi Liao, Qingsong Xie, Yanhao Zhang, Zijian Kong, Haonan Lu, Zhenyu Yang, Zhijie Deng
cs.AI
要旨
マルチモーダル大規模言語モデル(MLLM)の推論能力の向上に注目が集まっている。物理世界で機能するAIエージェントの基盤として、ビデオベースの視覚空間知能(VSI)はMLLMの最も重要な推論能力の一つとして浮上している。本研究では、R1-Zeroに似たトレーニングを通じてMLLMの視覚空間推論を改善する初めての詳細な調査を行った。技術的には、まず、小規模から中規模のQwen2-VLモデルの視覚空間推論能力がChain of Thought(CoT)プロンプトでは活性化されないことを特定した。次に、DeepSeek-R1-Zeroに従い、慎重にキュレーションされたVSI-100kデータセットを使用して、視覚空間推論を改善するためのGRPOトレーニングを組み込んだ。調査中に、GRPOにおいてKLペナルティ(小さな値であっても)を維持する必要性を特定した。わずか120 GPU時間で、Qwen2-VL-2BからファインチューンされたvsGRPO-2Bモデルは、ベースモデルを12.1%上回り、GPT-4oを凌駕した。さらに、Qwen2-VL-7BからファインチューンされたvsGRPO-7Bモデルは、最高のオープンソースモデルLLaVA-NeXT-Video-72Bに匹敵する性能を達成した。加えて、vsGRPOを教師ありファインチューニングと直接選好最適化のベースラインと比較し、強い性能優位性を観察した。コードとデータセットは近日中に公開予定である。
English
Increasing attention has been placed on improving the reasoning capacities of
multi-modal large language models (MLLMs). As the cornerstone for AI agents
that function in the physical realm, video-based visual-spatial intelligence
(VSI) emerges as one of the most pivotal reasoning capabilities of MLLMs. This
work conducts a first, in-depth study on improving the visual-spatial reasoning
of MLLMs via R1-Zero-like training. Technically, we first identify that the
visual-spatial reasoning capacities of small- to medium-sized Qwen2-VL models
cannot be activated via Chain of Thought (CoT) prompts. We then incorporate
GRPO training for improved visual-spatial reasoning, using the carefully
curated VSI-100k dataset, following DeepSeek-R1-Zero. During the investigation,
we identify the necessity to keep the KL penalty (even with a small value) in
GRPO. With just 120 GPU hours, our vsGRPO-2B model, fine-tuned from
Qwen2-VL-2B, can outperform the base model by 12.1% and surpass GPT-4o.
Moreover, our vsGRPO-7B model, fine-tuned from Qwen2-VL-7B, achieves
performance comparable to that of the best open-source model
LLaVA-NeXT-Video-72B. Additionally, we compare vsGRPO to supervised fine-tuning
and direct preference optimization baselines and observe strong performance
superiority. The code and dataset will be available soon.Summary
AI-Generated Summary