ChatPaper.aiChatPaper

강화학습 미세조정된 시각-언어 모델의 강건성과 사고 연쇄 일관성에 관한 연구

On Robustness and Chain-of-Thought Consistency of RL-Finetuned VLMs

February 13, 2026
저자: Rosie Zhao, Anshul Shah, Xiaoyu Zhu, Xinke Deng, Zhongyu Jiang, Yang Yang, Joerg Liebelt, Arnab Mondal
cs.AI

초록

강화학습(RL) 미세 조정은 추론 집약적 작업에서 대규모 언어 모델(LLM)의 성능을 향상시키는 핵심 기술로 자리 잡았으며, 이는 시각 언어 모델(VLM)로의 확장을 촉진하고 있습니다. RL로 미세 조정된 VLM은 시각적 추론 벤치마크에서 성능이 향상되지만, 약한 시각적 기반, 환각 현상, 그리고 텍스트 단서에 대한 과도한 의존성이라는 취약점을 여전히 보입니다. 본 연구는 단순하고 통제된 텍스트적 교란—오해를 부르는 캡션 또는 잘못된 사고 연쇄(CoT) 흔적—이 강건성과 신뢰도에 상당한 저하를 초래하며, 이러한 영향이 오픈소스 다중모달 추론 모델들 간에 CoT 일관성을 고려할 때 더 두드러진다는 것을 보여줍니다. 엔트로피 기반 지표는 추가로 이러한 교란이 모델의 불확실성과 정답 옵션에 대한 확률 질량을 재구성하여, 모델별 보정 오류 경향을 드러낸다는 것을 보여줍니다. 이러한 취약점을 더 잘 이해하기 위해, 우리는 RL 미세 조정 동역학을 추가로 분석하고 정확도-신뢰성 간의 트레이드오프를 발견했습니다: 미세 조정은 벤치마크 정확도를 높이지만, 동시에 수반되는 CoT의 신뢰성과 맥락 변화에 대한 강건성을 훼손할 수 있습니다. 적대적 증강은 강건성을 향상시키지만, 이것만으로는 신뢰성 표류를 막지 못합니다. 신뢰성 인식 보상을 도입하면 답변과 추론 간의 일치성을 회복할 수 있으나, 증강과 결합될 때 훈련은 단순 전략에 의존하게 될 위험이 있으며 강건성은 여전히 달성하기 어렵습니다. 이러한 결과들은 종합적으로 정확도만을 평가하는 방식의 한계를 부각시키며, 정확성, 강건성 및 시각적 근거 추론의 신뢰성을 함께 강조하는 훈련 및 평가 프로토콜의 필요성을 제기합니다.
English
Reinforcement learning (RL) fine-tuning has become a key technique for enhancing large language models (LLMs) on reasoning-intensive tasks, motivating its extension to vision language models (VLMs). While RL-tuned VLMs improve on visual reasoning benchmarks, they remain vulnerable to weak visual grounding, hallucinations, and over-reliance on textual cues. We show that simple, controlled textual perturbations--misleading captions or incorrect chain-of-thought (CoT) traces--cause substantial drops in robustness and confidence, and that these effects are more pronounced when CoT consistency is taken into account across open-source multimodal reasoning models. Entropy-based metrics further show that these perturbations reshape model uncertainty and probability mass on the correct option, exposing model-specific trends in miscalibration. To better understand these vulnerabilities, we further analyze RL fine-tuning dynamics and uncover an accuracy-faithfulness trade-off: fine-tuning raises benchmark accuracy, but can simultaneously erode the reliability of the accompanying CoT and its robustness to contextual shifts. Although adversarial augmentation improves robustness, it does not by itself prevent faithfulness drift. Incorporating a faithfulness-aware reward can restore alignment between answers and reasoning, but when paired with augmentation, training risks collapsing onto shortcut strategies and robustness remains elusive. Together, these findings highlight the limitations of accuracy-only evaluations and motivate training and assessment protocols that jointly emphasize correctness, robustness, and the faithfulness of visually grounded reasoning.
PDF31February 17, 2026