ChatPaper.aiChatPaper

Redeneerpalet: Modulatie van Redeneren via Latente Contextualisatie voor Beheerbare Verkenning voor (V)LM's

Reasoning Palette: Modulating Reasoning via Latent Contextualization for Controllable Exploration for (V)LMs

December 19, 2025
Auteurs: Rujiao Long, Yang Li, Xingyao Zhang, Weixun Wang, Tianqianjin Lin, Xi Zhao, Yuchi Xu, Wenbo Su, Junchi Yan, Bo Zheng
cs.AI

Samenvatting

Exploratiecapaciteit beïnvloedt zowel de prestaties tijdens inferentie als de training met reinforcement learning (RL) voor grote (vision-)taalmodellen, omdat stochastische bemonstering vaak redundante redeneerpaden oplevert met weinig hoogwaardige diversiteit. Dit artikel stelt Reasoning Palette voor, een nieuw latent-modulatieraamwerk dat het model voorziet van een stochastische latente variabele voor strategische contextualisering, die de interne planning vóór de token-generatie begeleidt. Deze latente context wordt afgeleid uit de gemiddeld gepoolde embedding van een vraag-antwoordpaar via een variational autoencoder (VAE), waarbij elke bemonsterde latente variabele mogelijk een afzonderlijke redeneercontext codeert. Tijdens inferentie wordt een bemonsterde latente variabele gedecodeerd naar leerbare tokenprefixen en voorgevoegd aan de invoerprompt, waardoor de interne redeneertrajectorie van het model wordt gemoduleerd. Op deze manier voert het model interne bemonstering uit van redeneerstrategieën vóór de generatie van de uitvoer, wat de stijl en structuur van de volledige responssequentie vormgeeft. Een korte opwarmfase met supervised fine-tuning (SFT) stelt het model in staat zich aan te passen aan deze latente conditionering. Binnen RL-optimalisatie vergemakkelijkt Reasoning Palette gestructureerde exploratie door on-demand injectie van diverse redeneermodi mogelijk te maken, wat de exploratie-efficiëntie en het volgehouden leervermogen aanzienlijk verbetert. Experimenten op meerdere redeneerbenchmarks tonen aan dat onze methode interpreteerbare en controleerbare sturing over het strategisch gedrag van het (vision-)taalmodel mogelijk maakt, waardoor consistente prestatieverbeteringen worden bereikt ten opzichte van standaard RL-methoden.
English
Exploration capacity shapes both inference-time performance and reinforcement learning (RL) training for large (vision-) language models, as stochastic sampling often yields redundant reasoning paths with little high-level diversity. This paper proposes Reasoning Palette, a novel latent-modulation framework that endows the model with a stochastic latent variable for strategic contextualization, guiding its internal planning prior to token generation. This latent context is inferred from the mean-pooled embedding of a question-answer pair via a variational autoencoder (VAE), where each sampled latent potentially encodes a distinct reasoning context. During inference, a sampled latent is decoded into learnable token prefixes and prepended to the input prompt, modulating the model's internal reasoning trajectory. In this way, the model performs internal sampling over reasoning strategies prior to output generation, which shapes the style and structure of the entire response sequence. A brief supervised fine-tuning (SFT) warm-up phase allows the model to adapt to this latent conditioning. Within RL optimization, Reasoning Palette facilitates structured exploration by enabling on-demand injection for diverse reasoning modes, significantly enhancing exploration efficiency and sustained learning capability. Experiments across multiple reasoning benchmarks demonstrate that our method enables interpretable and controllable control over the (vision-) language model's strategic behavior, thereby achieving consistent performance gains over standard RL methods.
PDF92December 24, 2025