VOGUE: 시각적 불확실성을 활용한 탐색 지도가 다중모달 추론을 개선한다
VOGUE: Guiding Exploration with Visual Uncertainty Improves Multimodal Reasoning
October 1, 2025
저자: Rui Liu, Dian Yu, Tong Zheng, Runpeng Dai, Zongxia Li, Wenhao Yu, Zhenwen Liang, Linfeng Song, Haitao Mi, Pratap Tokekar, Dong Yu
cs.AI
초록
검증 가능한 보상을 통한 강화 학습(RLVR)은 대규모 언어 모델(LLM)의 추론 능력을 향상시키지만, 탐색 문제에 어려움을 겪으며, 이는 다중모달 LLM(MLLM)에서도 여전히 지속되는 문제입니다. 현재의 방법들은 시각적 입력을 고정적이고 결정론적인 조건으로 취급하여 중요한 모호성의 원천을 간과하고, 가능한 시각적 변화에 강건한 정책을 구축하는 데 어려움을 겪습니다. 우리는 VOGUE(Visual Uncertainty Guided Exploration)라는 새로운 방법을 소개하며, 이는 탐색을 출력(텍스트) 공간에서 입력(시각) 공간으로 전환합니다. 이미지를 확률적 맥락으로 취급함으로써, VOGUE는 "원본"과 "잡음이 추가된" 분기 간의 대칭 KL 발산을 사용하여 정책의 시각적 섭동에 대한 민감도를 정량화하고, 불확실성 인식 탐색을 위한 직접적인 신호를 생성합니다. 이 신호는 불확실성에 비례하는 보너스를 통해 학습 목표를 형성하며, 토큰 엔트로피 보너스와 점진적 샘플링 스케줄과 결합되어 탐색과 활용의 균형을 효과적으로 조정합니다. 두 모델 규모(Qwen2.5-VL-3B/7B)에서 GRPO 내에 구현된 VOGUE는 세 가지 시각적 수학 벤치마크에서 평균 2.6%, 세 가지 일반 도메인 추론 벤치마크에서 3.7%의 pass@1 정확도를 향상시키며, 동시에 pass@4 성능을 증가시키고 RL 미세 조정에서 흔히 관찰되는 탐색 감소를 완화합니다. 우리의 연구는 시각적 입력의 고유한 불확실성에 탐색을 기반을 두는 것이 다중모달 추론을 개선하는 효과적인 전략임을 보여줍니다.
English
Reinforcement learning with verifiable rewards (RLVR) improves reasoning in
large language models (LLMs) but struggles with exploration, an issue that
still persists for multimodal LLMs (MLLMs). Current methods treat the visual
input as a fixed, deterministic condition, overlooking a critical source of
ambiguity and struggling to build policies robust to plausible visual
variations. We introduce VOGUE (Visual Uncertainty Guided
Exploration), a novel method that shifts exploration from the output (text)
to the input (visual) space. By treating the image as a stochastic context,
VOGUE quantifies the policy's sensitivity to visual perturbations using the
symmetric KL divergence between a "raw" and "noisy" branch, creating a direct
signal for uncertainty-aware exploration. This signal shapes the learning
objective via an uncertainty-proportional bonus, which, combined with a
token-entropy bonus and an annealed sampling schedule, effectively balances
exploration and exploitation. Implemented within GRPO on two model scales
(Qwen2.5-VL-3B/7B), VOGUE boosts pass@1 accuracy by an average of 2.6% on three
visual math benchmarks and 3.7% on three general-domain reasoning benchmarks,
while simultaneously increasing pass@4 performance and mitigating the
exploration decay commonly observed in RL fine-tuning. Our work shows that
grounding exploration in the inherent uncertainty of visual inputs is an
effective strategy for improving multimodal reasoning.