추론 팔레트: (V)LM의 제어 가능한 탐색을 위한 잠재적 맥락화를 통한 추론 조절
Reasoning Palette: Modulating Reasoning via Latent Contextualization for Controllable Exploration for (V)LMs
December 19, 2025
저자: Rujiao Long, Yang Li, Xingyao Zhang, Weixun Wang, Tianqianjin Lin, Xi Zhao, Yuchi Xu, Wenbo Su, Junchi Yan, Bo Zheng
cs.AI
초록
탐색 능력은 확률적 샘플링이 높은 수준의 다양성이 부족한 중복 추론 경로를 산출하는 경우가 많기 때문에, 대규모 (비전-) 언어 모델의 추론 시 성능과 강화 학습 훈련 모두에 영향을 미칩니다. 본 논문은 모델에 전략적 문맥화를 위한 확률적 잠재 변수를 부여하여 토큰 생성 전 내부 계획을 안내하는 새로운 잠재 변조 프레임워크인 Reasoning Palette를 제안합니다. 이 잠재 문맥은 변분 오토인코더(VAE)를 통해 질문-답변 쌍의 평균 풀링 임베딩으로부터 추론되며, 각 샘플링된 잠재 변수는 서로 다른 추론 문맥을 인코딩할 수 있습니다. 추론 시에는 샘플링된 잠재 변수가 학습 가능한 토큰 접두사로 디코딩되어 입력 프롬프트 앞에 추가되며, 이를 통해 모델의 내부 추론 궤적을 변조합니다. 이렇게 함으로써 모델은 출력 생성 전에 추론 전략에 대한 내부 샘플링을 수행하여 전체 응답 시퀀스의 스타일과 구조를 형성합니다. 간단한 지도 미세 조정(SFT) 준비 단계를 통해 모델은 이 잠재 조건화에 적응할 수 있습니다. 강화 학습 최적화 내에서 Reasoning Palette는 다양한 추론 모드의 온디맨드 주입을 가능하게 하여 구조화된 탐색을 용이하게 하고, 탐색 효율성과 지속적 학습 능력을 크게 향상시킵니다. 여러 추론 벤치마크에서의 실험을 통해 본 방법이 (비전-) 언어 모델의 전략적 행동에 대해 해석 가능하고 제어 가능한 조절을 가능하게 하여, 표준 강화 학습 방법 대비 일관된 성능 향상을 달성함을 입증합니다.
English
Exploration capacity shapes both inference-time performance and reinforcement learning (RL) training for large (vision-) language models, as stochastic sampling often yields redundant reasoning paths with little high-level diversity. This paper proposes Reasoning Palette, a novel latent-modulation framework that endows the model with a stochastic latent variable for strategic contextualization, guiding its internal planning prior to token generation. This latent context is inferred from the mean-pooled embedding of a question-answer pair via a variational autoencoder (VAE), where each sampled latent potentially encodes a distinct reasoning context. During inference, a sampled latent is decoded into learnable token prefixes and prepended to the input prompt, modulating the model's internal reasoning trajectory. In this way, the model performs internal sampling over reasoning strategies prior to output generation, which shapes the style and structure of the entire response sequence. A brief supervised fine-tuning (SFT) warm-up phase allows the model to adapt to this latent conditioning. Within RL optimization, Reasoning Palette facilitates structured exploration by enabling on-demand injection for diverse reasoning modes, significantly enhancing exploration efficiency and sustained learning capability. Experiments across multiple reasoning benchmarks demonstrate that our method enables interpretable and controllable control over the (vision-) language model's strategic behavior, thereby achieving consistent performance gains over standard RL methods.