ChatPaper.aiChatPaper

Palette de Raisonnement : Modulation du Raisonnement via la Contextualisation Latente pour une Exploration Contrôlable des (V)LM

Reasoning Palette: Modulating Reasoning via Latent Contextualization for Controllable Exploration for (V)LMs

December 19, 2025
papers.authors: Rujiao Long, Yang Li, Xingyao Zhang, Weixun Wang, Tianqianjin Lin, Xi Zhao, Yuchi Xu, Wenbo Su, Junchi Yan, Bo Zheng
cs.AI

papers.abstract

La capacité d'exploration conditionne à la fois les performances en inférence et l'apprentissage par renforcement (RL) pour les grands modèles (vision-)langage, car l'échantillonnage stochastique produit souvent des chemins de raisonnement redondants avec une diversité de haut niveau limitée. Cet article propose Reasoning Palette, un nouveau cadre de modulation latente qui dote le modèle d'une variable latente stochastique pour une contextualisation stratégique, guidant sa planification interne avant la génération de tokens. Ce contexte latent est inféré à partir de l'embedding moyenné d'une paire question-réponse via un autoencodeur variationnel (VAE), où chaque latent échantillonné encode potentiellement un contexte de raisonnement distinct. Lors de l'inférence, un latent échantillonné est décodé en préfixes de tokens apprenables et préfixé au prompt d'entrée, modulant la trajectoire de raisonnement interne du modèle. Ainsi, le modèle effectue un échantillonnage interne sur les stratégies de raisonnement avant la génération de la sortie, ce qui façonne le style et la structure de toute la séquence de réponse. Une brève phase de préparation par fine-tuning supervisé (SFT) permet au modèle de s'adapter à ce conditionnement latent. Au sein de l'optimisation RL, Reasoning Palette facilite l'exploration structurée en permettant l'injection à la demande de modes de raisonnement diversifiés, améliorant significativement l'efficacité d'exploration et la capacité d'apprentissage soutenu. Les expériences sur plusieurs benchmarks de raisonnement démontrent que notre méthode permet un contrôle interprétable et contrôlable du comportement stratégique du modèle (vision-)langage, obtenant ainsi des gains de performance constants par rapport aux méthodes RL standard.
English
Exploration capacity shapes both inference-time performance and reinforcement learning (RL) training for large (vision-) language models, as stochastic sampling often yields redundant reasoning paths with little high-level diversity. This paper proposes Reasoning Palette, a novel latent-modulation framework that endows the model with a stochastic latent variable for strategic contextualization, guiding its internal planning prior to token generation. This latent context is inferred from the mean-pooled embedding of a question-answer pair via a variational autoencoder (VAE), where each sampled latent potentially encodes a distinct reasoning context. During inference, a sampled latent is decoded into learnable token prefixes and prepended to the input prompt, modulating the model's internal reasoning trajectory. In this way, the model performs internal sampling over reasoning strategies prior to output generation, which shapes the style and structure of the entire response sequence. A brief supervised fine-tuning (SFT) warm-up phase allows the model to adapt to this latent conditioning. Within RL optimization, Reasoning Palette facilitates structured exploration by enabling on-demand injection for diverse reasoning modes, significantly enhancing exploration efficiency and sustained learning capability. Experiments across multiple reasoning benchmarks demonstrate that our method enables interpretable and controllable control over the (vision-) language model's strategic behavior, thereby achieving consistent performance gains over standard RL methods.
PDF92December 24, 2025