ChatPaper.aiChatPaper

潜在思考チューニング:潜在トークンにおける融合情報による文脈と推論の架け橋

Latent Thoughts Tuning: Bridging Context and Reasoning with Fused Information in Latent Tokens

February 10, 2026
著者: Weihao Liu, Dehai Min, Lu Cheng
cs.AI

要旨

明示的なChain-of-Thought(CoT)は大規模言語モデルに強力な推論能力をもたらすが、モデルはすべての中間ステップをテキストトークンで言語化する必要があり、モデルの思考は離散的な語彙空間に制約される。近年、連続潜在空間での推論が有望な代替手法として登場し、離散トークンの制約を超えたよりロバストな推論と柔軟な計算を可能にしている。しかし、現在の潜在空間パラダイムでは、隠れ状態を反復的に入力埋め込みとして使用する際の分布ミスマッチ、あるいは補助モデルへの依存に起因するアライメント問題から、特徴量の崩壊や不安定性が生じることが多い。この問題に対処するため、我々は潜在思考の構築と展開方法を再定義するフレームワーク「Latent Thoughts Tuning(LT-Tuning)」を提案する。本手法は、生の隠れ状態のみに依存するのではなく、文脈的隠れ状態と語彙埋め込み空間からの予測的意味ガイダンスを共同利用するContext-Prediction-Fusionメカニズムを導入する。段階的な3段階のカリキュラム学習パイプラインと組み合わせることで、LT-Tuningは潜在思考モードと明示的思考モードの動的切り替えも可能にする。実験により、本手法が既存の潜在推論ベースラインを凌駕し、特徴量の崩壊を効果的に緩和し、ロバストな推論精度を達成することが実証された。
English
While explicit Chain-of-Thought (CoT) equips Large Language Models (LLMs) with strong reasoning capabilities, it requires models to verbalize every intermediate step in text tokens, constraining the model thoughts to the discrete vocabulary space. Recently, reasoning in continuous latent space has emerged as a promising alternative, enabling more robust inference and flexible computation beyond discrete token constraints. However, current latent paradigms often suffer from feature collapse and instability, stemming from distribution mismatches when recurrently using hidden states as the input embeddings, or alignment issues when relying on assistant models. To address this, we propose Latent Thoughts Tuning (LT-Tuning), a framework that redefines how latent thoughts are constructed and deployed. Instead of relying solely on raw hidden states, our method introduces a Context-Prediction-Fusion mechanism that jointly leveraging contextual hidden states and predictive semantic guidance from the vocabulary embedding space. Combined with a progressive three-stage curriculum learning pipeline, LT-Tuning also enables dynamically switching between latent and explicit thinking modes. Experiments demonstrate that our method outperforms existing latent reasoning baselines, effectively mitigating feature collapse and achieving robust reasoning accuracy.
PDF51February 13, 2026