VOGUE: Begeleiding van exploratie met visuele onzekerheid verbetert multimodale redenering
VOGUE: Guiding Exploration with Visual Uncertainty Improves Multimodal Reasoning
October 1, 2025
Auteurs: Rui Liu, Dian Yu, Tong Zheng, Runpeng Dai, Zongxia Li, Wenhao Yu, Zhenwen Liang, Linfeng Song, Haitao Mi, Pratap Tokekar, Dong Yu
cs.AI
Samenvatting
Reinforcement learning met verifieerbare beloningen (RLVR) verbetert het redeneren in grote taalmodellen (LLMs), maar worstelt met exploratie, een probleem dat nog steeds bestaat voor multimodale LLMs (MLLMs). Huidige methoden behandelen de visuele invoer als een vaste, deterministische voorwaarde, waarbij een kritische bron van ambiguïteit over het hoofd wordt gezien en moeite wordt gedaan om beleidsregels te ontwikkelen die robuust zijn tegen plausibele visuele variaties. We introduceren VOGUE (Visual Uncertainty Guided Exploration), een nieuwe methode die exploratie verschuift van de uitvoer (tekst) naar de invoer (visuele) ruimte. Door de afbeelding te behandelen als een stochastische context, kwantificeert VOGUE de gevoeligheid van het beleid voor visuele verstoringen met behulp van de symmetrische KL-divergentie tussen een "ruwe" en een "ruisachtige" tak, waardoor een direct signaal ontstaat voor onzekerheidsbewuste exploratie. Dit signaal vormt het leerdoel via een bonus die evenredig is met de onzekerheid, die, gecombineerd met een token-entropiebonus en een geannealeerd bemonsteringsschema, effectief een balans vindt tussen exploratie en exploitatie. Geïmplementeerd binnen GRPO op twee modelschalen (Qwen2.5-VL-3B/7B), verhoogt VOGUE de pass@1-nauwkeurigheid gemiddeld met 2,6% op drie visuele wiskundige benchmarks en met 3,7% op drie algemene redeneerbenchmarks, terwijl tegelijkertijd de pass@4-prestatie wordt verbeterd en de exploratieverval die vaak wordt waargenomen bij RL-finetuning wordt verminderd. Ons werk laat zien dat het verankeren van exploratie in de inherente onzekerheid van visuele invoer een effectieve strategie is om multimodaal redeneren te verbeteren.
English
Reinforcement learning with verifiable rewards (RLVR) improves reasoning in
large language models (LLMs) but struggles with exploration, an issue that
still persists for multimodal LLMs (MLLMs). Current methods treat the visual
input as a fixed, deterministic condition, overlooking a critical source of
ambiguity and struggling to build policies robust to plausible visual
variations. We introduce VOGUE (Visual Uncertainty Guided
Exploration), a novel method that shifts exploration from the output (text)
to the input (visual) space. By treating the image as a stochastic context,
VOGUE quantifies the policy's sensitivity to visual perturbations using the
symmetric KL divergence between a "raw" and "noisy" branch, creating a direct
signal for uncertainty-aware exploration. This signal shapes the learning
objective via an uncertainty-proportional bonus, which, combined with a
token-entropy bonus and an annealed sampling schedule, effectively balances
exploration and exploitation. Implemented within GRPO on two model scales
(Qwen2.5-VL-3B/7B), VOGUE boosts pass@1 accuracy by an average of 2.6% on three
visual math benchmarks and 3.7% on three general-domain reasoning benchmarks,
while simultaneously increasing pass@4 performance and mitigating the
exploration decay commonly observed in RL fine-tuning. Our work shows that
grounding exploration in the inherent uncertainty of visual inputs is an
effective strategy for improving multimodal reasoning.