幾何学的潜在推論はLLMの生成を短縮する
Geometric Latent Reasoning Induces Shorter Generations in LLMs
June 1, 2026
著者: Shashi Kumar, Yacouba Kaloga, Petr Motlicek, Ina Kodrasi, Andrea Cavallaro
cs.AI
要旨
大規模言語モデルは、長い明示的な推論トークンの連鎖を生成することで複雑な問題を解決する。この手法は効果的である一方、推論を高コストにし、長さに敏感にし、そして(離散的な)自然言語に制約する。潜在推論は連続的な代替手段を提供するが、中間潜在状態に有用な構造を決定することは未解決の課題である。本稿では、モデルの事前学習済みトークン埋め込み空間内での幾何学的経路近似問題として潜在推論を定式化する。我々は幾何学的潜在推論(GLR)を導入する。これは軽量な遷移ヘッドを用いて埋め込み空間内の反復的な方向更新を予測するものである。テキスト形式の思考連鎖(chain-of-thought)の軌跡をアンカーとして用いることで、GLRは離散的な推論軌跡を近似しつつ、厳密なトークン埋め込みからの連続的な逸脱を許容する。Qwen3モデルを用いた数学的推論ベンチマークでの評価は、創発現象を明らかにする。すなわち、幾何学的潜在推論は明示的な長さの目的関数なしに、顕著に短い生成を誘発する。初期の明示的な推論を連続的な潜在ステップに置き換えることで、モデルは全体の生成ステップ数を大幅に削減しながら正しい答えに到達することが多い。これらの知見は、連続的な軌跡がコンパクトな中間推論状態として機能することを示唆し、潜在計算予算、出力長、精度の間に新たなトレードオフを露呈する。
English
Large language models solve complex problems by generating lengthy chains of explicit reasoning tokens. While effective, this makes reasoning expensive, length-sensitive, and constrained to (discrete) natural language. While latent reasoning offers a continuous alternative, determining useful structures for intermediate latent states is an open challenge. In this paper, we formulate latent reasoning as a geometric path-approximation problem within the model's pretrained token-embedding space. We introduce Geometric Latent Reasoning (GLR), which uses a lightweight transition head to predict iterative direction updates in embedding space. Using textual chain-of-thought traces as anchors, GLR learns to approximate discrete reasoning trajectories while permitting continuous deviations from exact token embeddings. Evaluations on mathematical reasoning benchmarks using Qwen3 models reveal an emergent phenomenon: geometric latent reasoning induces substantially shorter generations without an explicit length objective. By replacing early explicit reasoning with continuous latent steps, models often reach correct answers using substantially fewer total generation steps. These findings suggest that continuous trajectories act as compact intermediate reasoning states, exposing a new tradeoff between latent computation budget, output length, and accuracy.