Sulla Robustezza e la Coerenza della Catena di Ragionamento nei VLM Raffinati con RL

Abstract

L'addestramento con rinforzo (RL) è diventato una tecnica chiave per potenziare i grandi modelli linguistici (LLM) su compiti ad alta intensità di ragionamento, motivandone l'estensione ai modelli linguistici visivi (VLM). Sebbene i VLM ottimizzati con RL migliorino nei benchmark di ragionamento visivo, rimangono vulnerabili a un ancoraggio visivo debole, allucinazioni e a un'eccessiva dipendenza dagli indizi testuali. Dimostriamo che semplici perturbazioni testuali controllate – didascalie fuorvianti o tracce di ragionamento a catena (CoT) errate – causano un calo sostanziale della robustezza e della confidenza del modello, e che questi effetti sono più pronunciati quando la coerenza del CoT viene presa in considerazione attraverso modelli di ragionamento multimodale open-source. Metriche basate sull'entropia mostrano inoltre che queste perturbazioni rimodellano l'incertezza del modello e la massa di probabilità sull'opzione corretta, esponendo tendenze specifiche di ciascun modello nella scorretta calibrazione. Per comprendere meglio queste vulnerabilità, analizziamo ulteriormente le dinamiche di fine-tuning RL e scopriamo un compromesso tra accuratezza e fedeltà (accuracy-faithfulness): il fine-tuning aumenta l'accuratezza sul benchmark, ma può simultaneamente erodere l'affidabilità del CoT associato e la sua robustezza a cambiamenti contestuali. Sebbene l'augmentation avversaria migliori la robustezza, di per sé non previene la deriva della fedeltà. Incorporare una ricompensa che consideri la fedeltà può ripristinare l'allineamento tra risposte e ragionamento, ma se abbinata all'augmentation, l'addestramento rischia di collassare su strategie di scorciatoia e la robustezza rimane elusiva. Nel complesso, questi risultati evidenziano i limiti delle valutazioni basate solo sull'accuratezza e motivano protocolli di addestramento e valutazione che enfatizzino congiuntamente la correttezza, la robustezza e la fedeltà del ragionamento ancorato al visivo.

English

Reinforcement learning (RL) fine-tuning has become a key technique for enhancing large language models (LLMs) on reasoning-intensive tasks, motivating its extension to vision language models (VLMs). While RL-tuned VLMs improve on visual reasoning benchmarks, they remain vulnerable to weak visual grounding, hallucinations, and over-reliance on textual cues. We show that simple, controlled textual perturbations--misleading captions or incorrect chain-of-thought (CoT) traces--cause substantial drops in robustness and confidence, and that these effects are more pronounced when CoT consistency is taken into account across open-source multimodal reasoning models. Entropy-based metrics further show that these perturbations reshape model uncertainty and probability mass on the correct option, exposing model-specific trends in miscalibration. To better understand these vulnerabilities, we further analyze RL fine-tuning dynamics and uncover an accuracy-faithfulness trade-off: fine-tuning raises benchmark accuracy, but can simultaneously erode the reliability of the accompanying CoT and its robustness to contextual shifts. Although adversarial augmentation improves robustness, it does not by itself prevent faithfulness drift. Incorporating a faithfulness-aware reward can restore alignment between answers and reasoning, but when paired with augmentation, training risks collapsing onto shortcut strategies and robustness remains elusive. Together, these findings highlight the limitations of accuracy-only evaluations and motivate training and assessment protocols that jointly emphasize correctness, robustness, and the faithfulness of visually grounded reasoning.

Sulla Robustezza e la Coerenza della Catena di Ragionamento nei VLM Raffinati con RL

On Robustness and Chain-of-Thought Consistency of RL-Finetuned VLMs

Abstract

Support