VOGUE: Die Lenkung der Exploration durch visuelle Unsicherheit verbessert das multimodale Denken
VOGUE: Guiding Exploration with Visual Uncertainty Improves Multimodal Reasoning
October 1, 2025
papers.authors: Rui Liu, Dian Yu, Tong Zheng, Runpeng Dai, Zongxia Li, Wenhao Yu, Zhenwen Liang, Linfeng Song, Haitao Mi, Pratap Tokekar, Dong Yu
cs.AI
papers.abstract
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) verbessert das logische Denken in großen Sprachmodellen (LLMs), hat jedoch Schwierigkeiten mit der Exploration, ein Problem, das auch bei multimodalen LLMs (MLLMs) weiterhin besteht. Aktuelle Methoden behandeln den visuellen Input als eine feste, deterministische Bedingung, wodurch eine kritische Quelle von Mehrdeutigkeit übersehen wird und robuste Strategien gegenüber plausiblen visuellen Variationen schwer zu entwickeln sind. Wir stellen VOGUE (Visual Uncertainty Guided Exploration) vor, eine neuartige Methode, die die Exploration vom Ausgabe- (Text) in den Eingabe- (visuellen) Raum verlagert. Indem das Bild als stochastischer Kontext behandelt wird, quantifiziert VOGUE die Empfindlichkeit der Strategie gegenüber visuellen Störungen mithilfe der symmetrischen KL-Divergenz zwischen einem „rohen“ und einem „verrauschten“ Zweig, wodurch ein direktes Signal für unsicherheitsbewusste Exploration erzeugt wird. Dieses Signal formt das Lernziel über einen unsicherheitsproportionalen Bonus, der, kombiniert mit einem Token-Entropie-Bonus und einem abgestuften Sampling-Zeitplan, effektiv Exploration und Ausnutzung ausbalanciert. Implementiert innerhalb von GRPO auf zwei Modellgrößen (Qwen2.5-VL-3B/7B), steigert VOGUE die pass@1-Genauigkeit im Durchschnitt um 2,6 % bei drei visuellen Mathematik-Benchmarks und um 3,7 % bei drei allgemeinen Denk-Benchmarks, während gleichzeitig die pass@4-Leistung verbessert und der bei RL-Feintuning häufig beobachtete Explorationsverfall gemildert wird. Unsere Arbeit zeigt, dass die Verankerung der Exploration in der inhärenten Unsicherheit visueller Inputs eine effektive Strategie zur Verbesserung des multimodalen Denkens ist.
English
Reinforcement learning with verifiable rewards (RLVR) improves reasoning in
large language models (LLMs) but struggles with exploration, an issue that
still persists for multimodal LLMs (MLLMs). Current methods treat the visual
input as a fixed, deterministic condition, overlooking a critical source of
ambiguity and struggling to build policies robust to plausible visual
variations. We introduce VOGUE (Visual Uncertainty Guided
Exploration), a novel method that shifts exploration from the output (text)
to the input (visual) space. By treating the image as a stochastic context,
VOGUE quantifies the policy's sensitivity to visual perturbations using the
symmetric KL divergence between a "raw" and "noisy" branch, creating a direct
signal for uncertainty-aware exploration. This signal shapes the learning
objective via an uncertainty-proportional bonus, which, combined with a
token-entropy bonus and an annealed sampling schedule, effectively balances
exploration and exploitation. Implemented within GRPO on two model scales
(Qwen2.5-VL-3B/7B), VOGUE boosts pass@1 accuracy by an average of 2.6% on three
visual math benchmarks and 3.7% on three general-domain reasoning benchmarks,
while simultaneously increasing pass@4 performance and mitigating the
exploration decay commonly observed in RL fine-tuning. Our work shows that
grounding exploration in the inherent uncertainty of visual inputs is an
effective strategy for improving multimodal reasoning.