Reasoning Palette: Modulation des Schlussfolgerns durch latente Kontextualisierung für kontrollierte Exploration bei (V)LMs
Reasoning Palette: Modulating Reasoning via Latent Contextualization for Controllable Exploration for (V)LMs
December 19, 2025
papers.authors: Rujiao Long, Yang Li, Xingyao Zhang, Weixun Wang, Tianqianjin Lin, Xi Zhao, Yuchi Xu, Wenbo Su, Junchi Yan, Bo Zheng
cs.AI
papers.abstract
Die Erkundungskapazität beeinflusst sowohl die Inferenzleistung als auch das Reinforcement Learning (RL)-Training für große (Vision-)Sprachmodelle, da stochastisches Sampling häufig redundante Reasoning-Pfade mit geringer hochgradiger Diversität erzeugt. Dieses Papier stellt Reasoning Palette vor, einen neuartigen latenten Modulationsrahmen, der das Modell mit einer stochastischen latenten Variable für strategische Kontextualisierung ausstattet und dessen interne Planung vor der Token-Generierung steuert. Dieser latente Kontext wird aus dem gemittelten Embedding eines Frage-Antwort-Paares über einen variationalen Autoencoder (VAE) abgeleitet, wobei jedes gesampelte Latent potentiell einen distinctiven Reasoning-Kontext kodiert. Während der Inferenz wird ein gesampeltes Latent in lernbare Token-Präfixe decodiert und dem Eingabe-Prompt vorangestellt, um die interne Reasoning-Trajektorie des Moduls zu modulieren. Auf diese Weise führt das Modell internes Sampling über Reasoning-Strategien durch, bevor die Ausgabegenerierung erfolgt, was Stil und Struktur der gesamten Antwortsequenz prägt. Eine kurze Supervised Fine-Tuning (SFT)-Aufwärmphase ermöglicht es dem Modell, sich an diese latente Konditionierung anzupassen. Innerhalb der RL-Optimierung erleichtert Reasoning Palette strukturierte Erkundung durch bedarfsgesteuerte Injektion verschiedener Reasoning-Modi, was die Erkundungseffizienz und nachhaltige Lernfähigkeit erheblich steigert. Experimente über mehrere Reasoning-Benchmarks zeigen, dass unsere Methode interpretierbare und kontrollierbare Steuerung des strategischen Verhaltens von (Vision-)Sprachmodellen ermöglicht und dadurch konsistente Leistungssteigerungen gegenüber standardmäßigen RL-Methoden erzielt.
English
Exploration capacity shapes both inference-time performance and reinforcement learning (RL) training for large (vision-) language models, as stochastic sampling often yields redundant reasoning paths with little high-level diversity. This paper proposes Reasoning Palette, a novel latent-modulation framework that endows the model with a stochastic latent variable for strategic contextualization, guiding its internal planning prior to token generation. This latent context is inferred from the mean-pooled embedding of a question-answer pair via a variational autoencoder (VAE), where each sampled latent potentially encodes a distinct reasoning context. During inference, a sampled latent is decoded into learnable token prefixes and prepended to the input prompt, modulating the model's internal reasoning trajectory. In this way, the model performs internal sampling over reasoning strategies prior to output generation, which shapes the style and structure of the entire response sequence. A brief supervised fine-tuning (SFT) warm-up phase allows the model to adapt to this latent conditioning. Within RL optimization, Reasoning Palette facilitates structured exploration by enabling on-demand injection for diverse reasoning modes, significantly enhancing exploration efficiency and sustained learning capability. Experiments across multiple reasoning benchmarks demonstrate that our method enables interpretable and controllable control over the (vision-) language model's strategic behavior, thereby achieving consistent performance gains over standard RL methods.