ChatPaper.aiChatPaper

一般化のための分離:データ不足の視覚言語推論における文脈優先の自己進化学習

Decouple to Generalize: Context-First Self-Evolving Learning for Data-Scarce Vision-Language Reasoning

December 7, 2025
著者: Tingyu Li, Zheng Sun, Jingxuan Wei, Siyuan Li, Conghui He, Lijun Wu, Cheng Tan
cs.AI

要旨

近年、視覚言語モデル(VLM)は強化学習(RL)を通じて顕著な推論能力を達成し、経験の時代における持続的な自己進化型大規模視覚言語モデル(LVLM)の実現に向けた実行可能な解決策を提供している。しかし、VLMに対するRLは大量の高品質なマルチモーダルデータを必要とし、特に化学、地球科学、マルチモーダル数学などの専門領域ではその取得が困難である。合成データや自己報酬機構といった既存の戦略は、分布の限界や整合性の難しさに悩まされ、最終的には報酬ハッキング(モデルが高報酬パターンを悪用し、方策エントロピーの崩壊と訓練の不安定化を引き起こす)を生じさせる。本研究ではDoGe(Decouple to Generalize)を提案する。これは二重分離フレームワークであり、合成データ手法が見落としてきた問題文脈シナリオに再度注目することで、モデルがまず問題解決ではなく文脈から学ぶよう導く。学習プロセスを二つの構成要素(思考器と解決器)に分離することにより、このプロセスの報酬信号を合理的に定量化し、文脈の自由な探索から実践的な課題解決へ至る二段階のRL事後訓練アプローチを提案する。第二に、訓練データの多様性を高めるため、DoGeは進化するカリキュラム学習パイプラインを構築する:拡張された固有領域知識コーパスと、反復的に進化するシード問題プールである。実験結果から、本手法が様々なベンチマークで一貫してベースラインを上回り、自己進化型LVLMを実現するスケーラブルな経路を提供することが示された。
English
Recent vision-language models (VLMs) achieve remarkable reasoning through reinforcement learning (RL), which provides a feasible solution for realizing continuous self-evolving large vision-language models (LVLMs) in the era of experience. However, RL for VLMs requires abundant high-quality multimodal data, especially challenging in specialized domains like chemistry, earth sciences, and multimodal mathematics. Existing strategies such as synthetic data and self-rewarding mechanisms suffer from limited distributions and alignment difficulties, ultimately causing reward hacking: models exploit high-reward patterns, collapsing policy entropy and destabilizing training. We propose DoGe (Decouple to Generalize), a dual-decoupling framework that guides models to first learn from context rather than problem solving by refocusing on the problem context scenarios overlooked by synthetic data methods. By decoupling learning process into dual components (Thinker and Solver), we reasonably quantify the reward signals of this process and propose a two-stage RL post-training approach from freely exploring context to practically solving tasks. Second, to increase the diversity of training data, DoGe constructs an evolving curriculum learning pipeline: an expanded native domain knowledge corpus and an iteratively evolving seed problems pool. Experiments show that our method consistently outperforms the baseline across various benchmarks, providing a scalable pathway for realizing self-evolving LVLMs.
PDF32December 10, 2025