VOGUE: Направление исследования с использованием визуальной неопределенности улучшает мультимодальные рассуждения
VOGUE: Guiding Exploration with Visual Uncertainty Improves Multimodal Reasoning
October 1, 2025
Авторы: Rui Liu, Dian Yu, Tong Zheng, Runpeng Dai, Zongxia Li, Wenhao Yu, Zhenwen Liang, Linfeng Song, Haitao Mi, Pratap Tokekar, Dong Yu
cs.AI
Аннотация
Обучение с подкреплением с проверяемыми наградами (RLVR) улучшает способность к рассуждению в больших языковых моделях (LLM), но сталкивается с проблемами исследования, которые сохраняются и для мультимодальных LLM (MLLM). Современные методы рассматривают визуальный вход как фиксированное, детерминированное условие, упуская важный источник неоднозначности и не справляясь с созданием политик, устойчивых к правдоподобным визуальным вариациям. Мы представляем VOGUE (Visual Uncertainty Guided Exploration) — новый метод, который переносит исследование из пространства вывода (текст) в пространство ввода (визуальные данные). Рассматривая изображение как стохастический контекст, VOGUE количественно оценивает чувствительность политики к визуальным возмущениям с использованием симметричной дивергенции KL между "сырой" и "зашумленной" ветвями, создавая прямой сигнал для исследования с учетом неопределенности. Этот сигнал формирует цель обучения через бонус, пропорциональный неопределенности, который в сочетании с бонусом за энтропию токенов и плавным графиком сэмплирования эффективно балансирует исследование и эксплуатацию. Реализованный в рамках GRPO на двух масштабах моделей (Qwen2.5-VL-3B/7B), VOGUE повышает точность pass@1 в среднем на 2,6% на трех визуальных математических бенчмарках и на 3,7% на трех бенчмарках общего домена рассуждений, одновременно улучшая производительность pass@4 и смягчая ухудшение исследования, часто наблюдаемое при тонкой настройке с использованием RL. Наша работа демонстрирует, что основание исследования на внутренней неопределенности визуальных входных данных является эффективной стратегией для улучшения мультимодального рассуждения.
English
Reinforcement learning with verifiable rewards (RLVR) improves reasoning in
large language models (LLMs) but struggles with exploration, an issue that
still persists for multimodal LLMs (MLLMs). Current methods treat the visual
input as a fixed, deterministic condition, overlooking a critical source of
ambiguity and struggling to build policies robust to plausible visual
variations. We introduce VOGUE (Visual Uncertainty Guided
Exploration), a novel method that shifts exploration from the output (text)
to the input (visual) space. By treating the image as a stochastic context,
VOGUE quantifies the policy's sensitivity to visual perturbations using the
symmetric KL divergence between a "raw" and "noisy" branch, creating a direct
signal for uncertainty-aware exploration. This signal shapes the learning
objective via an uncertainty-proportional bonus, which, combined with a
token-entropy bonus and an annealed sampling schedule, effectively balances
exploration and exploitation. Implemented within GRPO on two model scales
(Qwen2.5-VL-3B/7B), VOGUE boosts pass@1 accuracy by an average of 2.6% on three
visual math benchmarks and 3.7% on three general-domain reasoning benchmarks,
while simultaneously increasing pass@4 performance and mitigating the
exploration decay commonly observed in RL fine-tuning. Our work shows that
grounding exploration in the inherent uncertainty of visual inputs is an
effective strategy for improving multimodal reasoning.