VOGUE: Orientando a Exploração com Incerteza Visual Melhora o Raciocínio Multimodal
VOGUE: Guiding Exploration with Visual Uncertainty Improves Multimodal Reasoning
October 1, 2025
Autores: Rui Liu, Dian Yu, Tong Zheng, Runpeng Dai, Zongxia Li, Wenhao Yu, Zhenwen Liang, Linfeng Song, Haitao Mi, Pratap Tokekar, Dong Yu
cs.AI
Resumo
O aprendizado por reforço com recompensas verificáveis (RLVR) melhora o raciocínio em modelos de linguagem de grande escala (LLMs), mas enfrenta dificuldades com a exploração, um problema que ainda persiste para LLMs multimodais (MLLMs). Os métodos atuais tratam a entrada visual como uma condição fixa e determinística, ignorando uma fonte crítica de ambiguidade e lutando para construir políticas robustas a variações visuais plausíveis. Introduzimos o VOGUE (Visual Uncertainty Guided Exploration), um método inovador que desloca a exploração do espaço de saída (texto) para o espaço de entrada (visual). Ao tratar a imagem como um contexto estocástico, o VOGUE quantifica a sensibilidade da política a perturbações visuais usando a divergência KL simétrica entre um ramo "bruto" e um ramo "ruidoso", criando um sinal direto para a exploração consciente da incerteza. Esse sinal molda o objetivo de aprendizado por meio de um bônus proporcional à incerteza, que, combinado com um bônus de entropia de token e um esquema de amostragem resfriado, equilibra efetivamente a exploração e a exploração. Implementado dentro do GRPO em duas escalas de modelo (Qwen2.5-VL-3B/7B), o VOGUE aumenta a precisão pass@1 em média 2,6% em três benchmarks de matemática visual e 3,7% em três benchmarks de raciocínio de domínio geral, ao mesmo tempo em que melhora o desempenho pass@4 e mitiga o declínio de exploração comumente observado no ajuste fino por RL. Nosso trabalho demonstra que fundamentar a exploração na incerteza inerente das entradas visuais é uma estratégia eficaz para melhorar o raciocínio multimodal.
English
Reinforcement learning with verifiable rewards (RLVR) improves reasoning in
large language models (LLMs) but struggles with exploration, an issue that
still persists for multimodal LLMs (MLLMs). Current methods treat the visual
input as a fixed, deterministic condition, overlooking a critical source of
ambiguity and struggling to build policies robust to plausible visual
variations. We introduce VOGUE (Visual Uncertainty Guided
Exploration), a novel method that shifts exploration from the output (text)
to the input (visual) space. By treating the image as a stochastic context,
VOGUE quantifies the policy's sensitivity to visual perturbations using the
symmetric KL divergence between a "raw" and "noisy" branch, creating a direct
signal for uncertainty-aware exploration. This signal shapes the learning
objective via an uncertainty-proportional bonus, which, combined with a
token-entropy bonus and an annealed sampling schedule, effectively balances
exploration and exploitation. Implemented within GRPO on two model scales
(Qwen2.5-VL-3B/7B), VOGUE boosts pass@1 accuracy by an average of 2.6% on three
visual math benchmarks and 3.7% on three general-domain reasoning benchmarks,
while simultaneously increasing pass@4 performance and mitigating the
exploration decay commonly observed in RL fine-tuning. Our work shows that
grounding exploration in the inherent uncertainty of visual inputs is an
effective strategy for improving multimodal reasoning.