ChatPaper.aiChatPaper

VOGUE: Guiar la exploración con incertidumbre visual mejora el razonamiento multimodal

VOGUE: Guiding Exploration with Visual Uncertainty Improves Multimodal Reasoning

October 1, 2025
Autores: Rui Liu, Dian Yu, Tong Zheng, Runpeng Dai, Zongxia Li, Wenhao Yu, Zhenwen Liang, Linfeng Song, Haitao Mi, Pratap Tokekar, Dong Yu
cs.AI

Resumen

El aprendizaje por refuerzo con recompensas verificables (RLVR) mejora el razonamiento en los modelos de lenguaje de gran escala (LLMs), pero enfrenta dificultades con la exploración, un problema que persiste también en los modelos de lenguaje multimodal (MLLMs). Los métodos actuales tratan la entrada visual como una condición fija y determinista, pasando por alto una fuente crítica de ambigüedad y luchando por construir políticas robustas frente a variaciones visuales plausibles. Presentamos VOGUE (Exploración Guiada por Incertidumbre Visual), un método novedoso que traslada la exploración del espacio de salida (texto) al de entrada (visual). Al tratar la imagen como un contexto estocástico, VOGUE cuantifica la sensibilidad de la política a perturbaciones visuales utilizando la divergencia KL simétrica entre una rama "original" y una "ruidosa", creando una señal directa para la exploración consciente de la incertidumbre. Esta señal moldea el objetivo de aprendizaje mediante una bonificación proporcional a la incertidumbre, que, combinada con una bonificación de entropía de tokens y un esquema de muestreo gradual, equilibra eficazmente la exploración y la explotación. Implementado dentro de GRPO en dos escalas de modelos (Qwen2.5-VL-3B/7B), VOGUE aumenta la precisión pass@1 en un promedio del 2.6% en tres benchmarks de matemáticas visuales y del 3.7% en tres benchmarks de razonamiento de dominio general, mientras mejora simultáneamente el rendimiento pass@4 y mitiga el decaimiento de la exploración comúnmente observado en el ajuste fino por RL. Nuestro trabajo demuestra que fundamentar la exploración en la incertidumbre inherente de las entradas visuales es una estrategia efectiva para mejorar el razonamiento multimodal.
English
Reinforcement learning with verifiable rewards (RLVR) improves reasoning in large language models (LLMs) but struggles with exploration, an issue that still persists for multimodal LLMs (MLLMs). Current methods treat the visual input as a fixed, deterministic condition, overlooking a critical source of ambiguity and struggling to build policies robust to plausible visual variations. We introduce VOGUE (Visual Uncertainty Guided Exploration), a novel method that shifts exploration from the output (text) to the input (visual) space. By treating the image as a stochastic context, VOGUE quantifies the policy's sensitivity to visual perturbations using the symmetric KL divergence between a "raw" and "noisy" branch, creating a direct signal for uncertainty-aware exploration. This signal shapes the learning objective via an uncertainty-proportional bonus, which, combined with a token-entropy bonus and an annealed sampling schedule, effectively balances exploration and exploitation. Implemented within GRPO on two model scales (Qwen2.5-VL-3B/7B), VOGUE boosts pass@1 accuracy by an average of 2.6% on three visual math benchmarks and 3.7% on three general-domain reasoning benchmarks, while simultaneously increasing pass@4 performance and mitigating the exploration decay commonly observed in RL fine-tuning. Our work shows that grounding exploration in the inherent uncertainty of visual inputs is an effective strategy for improving multimodal reasoning.
PDF192October 3, 2025