Sur la Robustesse et la Cohérence du Raisonnement en Chaîne des Modèles Visio-Linguistiques affinés par Apprentissage par Renforcement
On Robustness and Chain-of-Thought Consistency of RL-Finetuned VLMs
February 13, 2026
papers.authors: Rosie Zhao, Anshul Shah, Xiaoyu Zhu, Xinke Deng, Zhongyu Jiang, Yang Yang, Joerg Liebelt, Arnab Mondal
cs.AI
papers.abstract
L'affinage par apprentissage par renforcement (RL) est devenu une technique clé pour améliorer les grands modèles de langage (LLM) sur les tâches intensives en raisonnement, motivant son extension aux modèles de vision et de langage (VLM). Bien que les VLM affinés par RL s'améliorent sur les benchmarks de raisonnement visuel, ils restent vulnérables à un ancrage visuel faible, aux hallucinations et à une dépendance excessive aux indices textuels. Nous montrons que de simples perturbations textuelles contrôlées – des légendes trompeuses ou des traces de raisonnement en chaîne (CoT) incorrectes – provoquent des baisses substantielles de robustesse et de confiance, et que ces effets sont plus prononcés lorsque la cohérence du CoT est prise en compte dans les modèles de raisonnement multimodal open-source. Des métriques basées sur l'entropie montrent en outre que ces perturbations remodèlent l'incertitude du modèle et la masse de probabilité sur l'option correcte, révélant des tendances spécifiques aux modèles en matière de maujustement. Pour mieux comprendre ces vulnérabilités, nous analysons plus avant la dynamique de l'affinage par RL et découvrons un compromis précision-fidélité : l'affinage augmente la précision sur les benchmarks, mais peut simultanément éroder la fiabilité du CoT qui l'accompagne et sa robustesse aux changements contextuels. Bien qu'une augmentation adversarial améliore la robustesse, elle ne prévient pas à elle seule la dérive de la fidélité. L'intégration d'une récompense sensible à la fidélité peut rétablir l'alignement entre les réponses et le raisonnement, mais, associée à l'augmentation, l'entraînement risque de s'effondrer sur des stratégies de raccourci et la robustesse reste insaisissable. Ensemble, ces résultats mettent en lumière les limites des évaluations basées uniquement sur la précision et motivent des protocoles d'entraînement et d'évaluation qui mettent conjointement l'accent sur l'exactitude, la robustesse et la fidélité du raisonnement ancré visuellement.
English
Reinforcement learning (RL) fine-tuning has become a key technique for enhancing large language models (LLMs) on reasoning-intensive tasks, motivating its extension to vision language models (VLMs). While RL-tuned VLMs improve on visual reasoning benchmarks, they remain vulnerable to weak visual grounding, hallucinations, and over-reliance on textual cues. We show that simple, controlled textual perturbations--misleading captions or incorrect chain-of-thought (CoT) traces--cause substantial drops in robustness and confidence, and that these effects are more pronounced when CoT consistency is taken into account across open-source multimodal reasoning models. Entropy-based metrics further show that these perturbations reshape model uncertainty and probability mass on the correct option, exposing model-specific trends in miscalibration. To better understand these vulnerabilities, we further analyze RL fine-tuning dynamics and uncover an accuracy-faithfulness trade-off: fine-tuning raises benchmark accuracy, but can simultaneously erode the reliability of the accompanying CoT and its robustness to contextual shifts. Although adversarial augmentation improves robustness, it does not by itself prevent faithfulness drift. Incorporating a faithfulness-aware reward can restore alignment between answers and reasoning, but when paired with augmentation, training risks collapsing onto shortcut strategies and robustness remains elusive. Together, these findings highlight the limitations of accuracy-only evaluations and motivate training and assessment protocols that jointly emphasize correctness, robustness, and the faithfulness of visually grounded reasoning.