VOGUE: Guidare l'esplorazione con l'incertezza visiva migliora il ragionamento multimodale

Abstract

L'apprendimento per rinforzo con ricompense verificabili (RLVR) migliora il ragionamento nei grandi modelli linguistici (LLM), ma incontra difficoltà nell'esplorazione, un problema che persiste anche per i modelli linguistici multimodali (MLLM). I metodi attuali trattano l'input visivo come una condizione fissa e deterministica, trascurando una fonte critica di ambiguità e faticando a costruire politiche robuste rispetto a variazioni visive plausibili. Introduciamo VOGUE (Visual Uncertainty Guided Exploration), un metodo innovativo che sposta l'esplorazione dallo spazio di output (testo) a quello di input (visivo). Trattando l'immagine come un contesto stocastico, VOGUE quantifica la sensibilità della politica alle perturbazioni visive utilizzando la divergenza KL simmetrica tra un ramo "grezzo" e uno "rumoroso", creando un segnale diretto per un'esplorazione consapevole dell'incertezza. Questo segnale modella l'obiettivo di apprendimento attraverso un bonus proporzionale all'incertezza, che, combinato con un bonus sull'entropia dei token e una pianificazione di campionamento scalata, bilancia efficacemente esplorazione e sfruttamento. Implementato all'interno di GRPO su due scale di modello (Qwen2.5-VL-3B/7B), VOGUE aumenta l'accuratezza pass@1 in media del 2,6% su tre benchmark di matematica visiva e del 3,7% su tre benchmark di ragionamento in dominio generale, migliorando contemporaneamente le prestazioni pass@4 e mitigando il decadimento dell'esplorazione comunemente osservato durante il fine-tuning RL. Il nostro lavoro dimostra che ancorare l'esplorazione all'incertezza intrinseca degli input visivi è una strategia efficace per migliorare il ragionamento multimodale.

English

Reinforcement learning with verifiable rewards (RLVR) improves reasoning in large language models (LLMs) but struggles with exploration, an issue that still persists for multimodal LLMs (MLLMs). Current methods treat the visual input as a fixed, deterministic condition, overlooking a critical source of ambiguity and struggling to build policies robust to plausible visual variations. We introduce VOGUE (Visual Uncertainty Guided Exploration), a novel method that shifts exploration from the output (text) to the input (visual) space. By treating the image as a stochastic context, VOGUE quantifies the policy's sensitivity to visual perturbations using the symmetric KL divergence between a "raw" and "noisy" branch, creating a direct signal for uncertainty-aware exploration. This signal shapes the learning objective via an uncertainty-proportional bonus, which, combined with a token-entropy bonus and an annealed sampling schedule, effectively balances exploration and exploitation. Implemented within GRPO on two model scales (Qwen2.5-VL-3B/7B), VOGUE boosts pass@1 accuracy by an average of 2.6% on three visual math benchmarks and 3.7% on three general-domain reasoning benchmarks, while simultaneously increasing pass@4 performance and mitigating the exploration decay commonly observed in RL fine-tuning. Our work shows that grounding exploration in the inherent uncertainty of visual inputs is an effective strategy for improving multimodal reasoning.

VOGUE: Guidare l'esplorazione con l'incertezza visiva migliora il ragionamento multimodale

VOGUE: Guiding Exploration with Visual Uncertainty Improves Multimodal Reasoning

Abstract

Support