ChatPaper.aiChatPaper

強化学習ファインチューニングされた視覚言語モデルのロバスト性と思考連鎖一貫性に関する考察

On Robustness and Chain-of-Thought Consistency of RL-Finetuned VLMs

February 13, 2026
著者: Rosie Zhao, Anshul Shah, Xiaoyu Zhu, Xinke Deng, Zhongyu Jiang, Yang Yang, Joerg Liebelt, Arnab Mondal
cs.AI

要旨

強化学習(RL)ファインチューニングは、推論集約型タスクにおいて大規模言語モデル(LLM)を強化する主要技術として確立され、その応用は視覚言語モデル(VLM)にも広がりつつある。RLで調整されたVLMは視覚的推論ベンチマークで性能向上を示すものの、視覚的基盤付けの弱さ、幻覚、テキスト情報への過度な依存といった課題に依然として直面している。本研究では、誤解を招くキャプションや不正確な思考連鎖(CoT)といった単純で制御されたテキスト摂動が、ロバスト性と信頼度を大幅に低下させることを実証する。さらに、オープンソースのマルチモーダル推論モデルにおいて、CoTの一貫性を考慮するとこれらの影響がより顕著になることを示す。エントロピーベースの指標により、これらの摂動が正解選択肢に対するモデルの不確実性と確率質量を再形成し、モデル固有の較正誤差の傾向を浮き彫りにすることが明らかとなった。 これらの脆弱性を深く理解するため、RLファインチューニングの動態を分析した結果、精度と信頼性のトレードオフを発見した。すなわち、ファインチューニングはベンチマーク精度を向上させる一方で、付随するCoTの信頼性や文脈変化に対する頑健性を同時に損なう可能性がある。敵対的データ拡張はロバスト性を改善するが、それ単独では信頼性の低下を防げない。信頼性を考慮した報酬を組み込むことで回答と推論の整合性を回復できるが、データ拡張と併用すると、訓練が近道戦略に陥り、ロバスト性の獲得が困難になる場合がある。これらの知見は総じて、精度のみに焦点を当てた評価の限界を明らかにし、正答性、頑健性、視覚に基づく推論の信頼性を統合的に重視する新たな訓練・評価手法の必要性を提起するものである。
English
Reinforcement learning (RL) fine-tuning has become a key technique for enhancing large language models (LLMs) on reasoning-intensive tasks, motivating its extension to vision language models (VLMs). While RL-tuned VLMs improve on visual reasoning benchmarks, they remain vulnerable to weak visual grounding, hallucinations, and over-reliance on textual cues. We show that simple, controlled textual perturbations--misleading captions or incorrect chain-of-thought (CoT) traces--cause substantial drops in robustness and confidence, and that these effects are more pronounced when CoT consistency is taken into account across open-source multimodal reasoning models. Entropy-based metrics further show that these perturbations reshape model uncertainty and probability mass on the correct option, exposing model-specific trends in miscalibration. To better understand these vulnerabilities, we further analyze RL fine-tuning dynamics and uncover an accuracy-faithfulness trade-off: fine-tuning raises benchmark accuracy, but can simultaneously erode the reliability of the accompanying CoT and its robustness to contextual shifts. Although adversarial augmentation improves robustness, it does not by itself prevent faithfulness drift. Incorporating a faithfulness-aware reward can restore alignment between answers and reasoning, but when paired with augmentation, training risks collapsing onto shortcut strategies and robustness remains elusive. Together, these findings highlight the limitations of accuracy-only evaluations and motivate training and assessment protocols that jointly emphasize correctness, robustness, and the faithfulness of visually grounded reasoning.
PDF31February 17, 2026