VOGUE : Guider l'exploration avec l'incertitude visuelle améliore le raisonnement multimodal

papers.abstract

L'apprentissage par renforcement avec récompenses vérifiables (RLVR) améliore le raisonnement dans les grands modèles de langage (LLMs), mais peine à gérer l'exploration, un problème qui persiste également pour les LLMs multimodaux (MLLMs). Les méthodes actuelles traitent l'entrée visuelle comme une condition fixe et déterministe, négligeant une source critique d'ambiguïté et peinant à construire des politiques robustes face aux variations visuelles plausibles. Nous introduisons VOGUE (Visual Uncertainty Guided Exploration), une méthode novatrice qui déplace l'exploration de l'espace de sortie (texte) vers l'espace d'entrée (visuel). En traitant l'image comme un contexte stochastique, VOGUE quantifie la sensibilité de la politique aux perturbations visuelles en utilisant la divergence KL symétrique entre une branche "brute" et une branche "bruitée", créant ainsi un signal direct pour une exploration tenant compte de l'incertitude. Ce signal façonne l'objectif d'apprentissage via un bonus proportionnel à l'incertitude, qui, combiné à un bonus d'entropie des tokens et à un échantillonnage progressif, équilibre efficacement exploration et exploitation. Implémenté dans GRPO sur deux échelles de modèles (Qwen2.5-VL-3B/7B), VOGUE améliore la précision pass@1 de 2,6 % en moyenne sur trois benchmarks de mathématiques visuelles et de 3,7 % sur trois benchmarks de raisonnement général, tout en augmentant les performances pass@4 et en atténuant le déclin d'exploration couramment observé lors du réglage fin par RL. Notre travail montre que l'ancrage de l'exploration dans l'incertitude inhérente des entrées visuelles est une stratégie efficace pour améliorer le raisonnement multimodal.

English

Reinforcement learning with verifiable rewards (RLVR) improves reasoning in large language models (LLMs) but struggles with exploration, an issue that still persists for multimodal LLMs (MLLMs). Current methods treat the visual input as a fixed, deterministic condition, overlooking a critical source of ambiguity and struggling to build policies robust to plausible visual variations. We introduce VOGUE (Visual Uncertainty Guided Exploration), a novel method that shifts exploration from the output (text) to the input (visual) space. By treating the image as a stochastic context, VOGUE quantifies the policy's sensitivity to visual perturbations using the symmetric KL divergence between a "raw" and "noisy" branch, creating a direct signal for uncertainty-aware exploration. This signal shapes the learning objective via an uncertainty-proportional bonus, which, combined with a token-entropy bonus and an annealed sampling schedule, effectively balances exploration and exploitation. Implemented within GRPO on two model scales (Qwen2.5-VL-3B/7B), VOGUE boosts pass@1 accuracy by an average of 2.6% on three visual math benchmarks and 3.7% on three general-domain reasoning benchmarks, while simultaneously increasing pass@4 performance and mitigating the exploration decay commonly observed in RL fine-tuning. Our work shows that grounding exploration in the inherent uncertainty of visual inputs is an effective strategy for improving multimodal reasoning.

VOGUE : Guider l'exploration avec l'incertitude visuelle améliore le raisonnement multimodal

VOGUE: Guiding Exploration with Visual Uncertainty Improves Multimodal Reasoning

papers.abstract

Support