ChatPaper.aiChatPaper

Paleta de Razonamiento: Modulación del Razonamiento mediante Contextualización Latente para una Exploración Controlable en (V)LMs

Reasoning Palette: Modulating Reasoning via Latent Contextualization for Controllable Exploration for (V)LMs

December 19, 2025
Autores: Rujiao Long, Yang Li, Xingyao Zhang, Weixun Wang, Tianqianjin Lin, Xi Zhao, Yuchi Xu, Wenbo Su, Junchi Yan, Bo Zheng
cs.AI

Resumen

La capacidad de exploración determina tanto el rendimiento en inferencia como el entrenamiento por aprendizaje por refuerzo (RL) en modelos lingüísticos (visiolingüísticos) de gran escala, ya que el muestreo estocástico frecuentemente genera trayectorias de razonamiento redundantes con escasa diversidad de alto nivel. Este artículo propone Reasoning Palette, un novedoso marco de modulación latente que dota al modelo de una variable latente estocástica para la contextualización estratégica, guiando su planificación interna antes de la generación de tokens. Este contexto latente se infiere a partir de la incrustación promediada de un par pregunta-respuesta mediante un autoencoder variacional (VAE), donde cada latente muestreado potencialmente codifica un contexto de razonamiento distinto. Durante la inferencia, un latente muestreado se decodifica en prefijos de tokens aprendibles y se antepone al prompt de entrada, modulando la trayectoria interna de razonamiento del modelo. De esta forma, el modelo realiza un muestreo interno de estrategias de razonamiento antes de la generación de salidas, lo que determina el estilo y la estructura de toda la secuencia de respuestas. Una breve fase de calentamiento mediante ajuste fino supervisado (SFT) permite al modelo adaptarse a este condicionamiento latente. Dentro de la optimización por RL, Reasoning Palette facilita la exploración estructurada al permitir la inyección bajo demanda de modos de razonamiento diversos, mejorando significativamente la eficiencia exploratoria y la capacidad de aprendizaje sostenido. Experimentos en múltiples benchmarks de razonamiento demuestran que nuestro método permite un control interpretable y manipulable sobre el comportamiento estratégico del modelo (visio)lingüístico, logrando así ganancias de rendimiento consistentes respecto a métodos estándar de RL.
English
Exploration capacity shapes both inference-time performance and reinforcement learning (RL) training for large (vision-) language models, as stochastic sampling often yields redundant reasoning paths with little high-level diversity. This paper proposes Reasoning Palette, a novel latent-modulation framework that endows the model with a stochastic latent variable for strategic contextualization, guiding its internal planning prior to token generation. This latent context is inferred from the mean-pooled embedding of a question-answer pair via a variational autoencoder (VAE), where each sampled latent potentially encodes a distinct reasoning context. During inference, a sampled latent is decoded into learnable token prefixes and prepended to the input prompt, modulating the model's internal reasoning trajectory. In this way, the model performs internal sampling over reasoning strategies prior to output generation, which shapes the style and structure of the entire response sequence. A brief supervised fine-tuning (SFT) warm-up phase allows the model to adapt to this latent conditioning. Within RL optimization, Reasoning Palette facilitates structured exploration by enabling on-demand injection for diverse reasoning modes, significantly enhancing exploration efficiency and sustained learning capability. Experiments across multiple reasoning benchmarks demonstrate that our method enables interpretable and controllable control over the (vision-) language model's strategic behavior, thereby achieving consistent performance gains over standard RL methods.
PDF92December 24, 2025