ChatPaper.aiChatPaper

推論パレット: (V)LMの制御可能な探索のための潜在的文脈化による推論の調整

Reasoning Palette: Modulating Reasoning via Latent Contextualization for Controllable Exploration for (V)LMs

December 19, 2025
著者: Rujiao Long, Yang Li, Xingyao Zhang, Weixun Wang, Tianqianjin Lin, Xi Zhao, Yuchi Xu, Wenbo Su, Junchi Yan, Bo Zheng
cs.AI

要旨

大規模(視覚)言語モデルにおいて、探索能力は推論時の性能と強化学習(RL)訓練の両方を形成する。確率的サンプリングはしばしば高レベルの多様性に乏しい冗長な推論パスを生成するためである。本論文は、Reasoning Palette という新しい潜在変数調節フレームワークを提案する。これは、モデルに戦略的文脈化のための確率的潜在変数を付与し、トークン生成前に内部計画を誘導する。この潜在文脈は、変分オートエンコーダー(VAE)を介して質問-回答ペアの平均プーリングされた埋め込みから推論され、各サンプリングされた潜在変数は異なる推論文脈を符号化する可能性がある。推論時には、サンプリングされた潜在変数は学習可能なトークンプレフィックスに復号化され、入力プロンプトの先頭に付加されることで、モデルの内部推論軌跡を調節する。このようにして、モデルは出力生成前に推論戦略に関する内部サンプリングを実行し、応答シーケンス全体のスタイルと構造を形成する。簡易な教師ありファインチューニング(SFT)によるウォームアップ段階により、モデルはこの潜在条件付けに適応する。RL最適化内では、Reasoning Palette は多様な推論モードのオンデマンド注入を可能にすることで構造化された探索を促進し、探索効率と持続的学習能力を大幅に向上させる。複数の推論ベンチマークによる実験により、本手法が(視覚)言語モデルの戦略的挙動に対する解釈可能かつ制御可能な制御を実現し、標準的なRL手法を上回る一貫した性能向上を達成することを実証する。
English
Exploration capacity shapes both inference-time performance and reinforcement learning (RL) training for large (vision-) language models, as stochastic sampling often yields redundant reasoning paths with little high-level diversity. This paper proposes Reasoning Palette, a novel latent-modulation framework that endows the model with a stochastic latent variable for strategic contextualization, guiding its internal planning prior to token generation. This latent context is inferred from the mean-pooled embedding of a question-answer pair via a variational autoencoder (VAE), where each sampled latent potentially encodes a distinct reasoning context. During inference, a sampled latent is decoded into learnable token prefixes and prepended to the input prompt, modulating the model's internal reasoning trajectory. In this way, the model performs internal sampling over reasoning strategies prior to output generation, which shapes the style and structure of the entire response sequence. A brief supervised fine-tuning (SFT) warm-up phase allows the model to adapt to this latent conditioning. Within RL optimization, Reasoning Palette facilitates structured exploration by enabling on-demand injection for diverse reasoning modes, significantly enhancing exploration efficiency and sustained learning capability. Experiments across multiple reasoning benchmarks demonstrate that our method enables interpretable and controllable control over the (vision-) language model's strategic behavior, thereby achieving consistent performance gains over standard RL methods.
PDF92December 24, 2025