ChatPaper.aiChatPaper

Paletta di Ragionamento: Modulazione del Ragionamento tramite Contestualizzazione Latente per un'Esplorazione Controllabile nei (V)LM

Reasoning Palette: Modulating Reasoning via Latent Contextualization for Controllable Exploration for (V)LMs

December 19, 2025
Autori: Rujiao Long, Yang Li, Xingyao Zhang, Weixun Wang, Tianqianjin Lin, Xi Zhao, Yuchi Xu, Wenbo Su, Junchi Yan, Bo Zheng
cs.AI

Abstract

La capacità di esplorazione influenza sia le prestazioni in fase di inferenza che l'addestramento con apprendimento per rinforzo (RL) per i grandi modelli linguistici (e visivo-linguistici), poiché il campionamento stocastico spesso produce percorsi di ragionamento ridondanti con scarsa diversità a livello alto. Questo articolo propone Reasoning Palette, un innovativo framework a modulazione latente che fornisce al modello una variabile latente stocastica per la contestualizzazione strategica, guidando la sua pianificazione interna prima della generazione dei token. Questo contesto latente viene inferito dall'embedding mediato per pooling di una coppia domanda-risposta tramite un autoencoder variazionale (VAE), dove ogni latente campionato codifica potenzialmente un contesto di ragionamento distinto. Durante l'inferenza, un latente campionato viene decodificato in prefissi di token apprendibili e preposto al prompt di input, modulando la traiettoria di ragionamento interna del modello. In questo modo, il modello esegue un campionamento interno sulle strategie di ragionamento prima della generazione dell'output, plasmando lo stile e la struttura dell'intera sequenza di risposta. Una breve fase di riscaldamento di fine-tuning supervisionato (SFT) consente al modello di adattarsi a questo condizionamento latente. Nell'ottimizzazione RL, Reasoning Palette facilita l'esplorazione strutturata consentendo l'iniezione on-demand di modalità di ragionamento diverse, migliorando significativamente l'efficienza esplorativa e la capacità di apprendimento sostenuto. Esperimenti su molteplici benchmark di ragionamento dimostrano che il nostro metodo consente un controllo interpretabile e controllabile sul comportamento strategico del modello (visivo-)linguistico, ottenendo così guadagni prestazionali consistenti rispetto ai metodi RL standard.
English
Exploration capacity shapes both inference-time performance and reinforcement learning (RL) training for large (vision-) language models, as stochastic sampling often yields redundant reasoning paths with little high-level diversity. This paper proposes Reasoning Palette, a novel latent-modulation framework that endows the model with a stochastic latent variable for strategic contextualization, guiding its internal planning prior to token generation. This latent context is inferred from the mean-pooled embedding of a question-answer pair via a variational autoencoder (VAE), where each sampled latent potentially encodes a distinct reasoning context. During inference, a sampled latent is decoded into learnable token prefixes and prepended to the input prompt, modulating the model's internal reasoning trajectory. In this way, the model performs internal sampling over reasoning strategies prior to output generation, which shapes the style and structure of the entire response sequence. A brief supervised fine-tuning (SFT) warm-up phase allows the model to adapt to this latent conditioning. Within RL optimization, Reasoning Palette facilitates structured exploration by enabling on-demand injection for diverse reasoning modes, significantly enhancing exploration efficiency and sustained learning capability. Experiments across multiple reasoning benchmarks demonstrate that our method enables interpretable and controllable control over the (vision-) language model's strategic behavior, thereby achieving consistent performance gains over standard RL methods.
PDF92December 24, 2025