Geometrisches latentes Schließen induziert kürzere Generierungen in LLMs.

Zusammenfassung

Große Sprachmodelle lösen komplexe Probleme, indem sie lange Ketten expliziter Denkschritte (Reasoning-Token) erzeugen. Obwohl dies effektiv ist, macht es das Denken teuer, längenempfindlich und auf (diskrete) natürliche Sprache beschränkt. Während latentes Denken eine kontinuierliche Alternative bietet, bleibt die Bestimmung nützlicher Strukturen für latente Zwischenzustände eine offene Herausforderung. In dieser Arbeit formulieren wir latentes Denken als ein geometrisches Pfadapproximationsproblem im vortrainierten Token-Embedding-Raum des Modells. Wir führen das Geometrische Latente Denken (GLR) ein, das einen leichten Übergangs-Head (Transition Head) verwendet, um iterative Richtungsaktualisierungen im Embedding-Raum vorherzusagen. Mithilfe von textuellen Chain-of-Thought-Spuren als Anker lernt GLR, diskrete Denktrajektorien zu approximieren, während kontinuierliche Abweichungen von exakten Token-Embeddings erlaubt sind. Auswertungen an mathematischen Denk-Benchmarks mit Qwen3-Modellen offenbaren ein emergentes Phänomen: Geometrisches latentes Denken führt zu deutlich kürzeren Generierungen, ohne ein explizites Längenziel. Indem frühe explizite Denkschritte durch kontinuierliche latente Schritte ersetzt werden, erreichen Modelle oft korrekte Antworten mit erheblich weniger gesamten Generierungsschritten. Diese Ergebnisse deuten darauf hin, dass kontinuierliche Trajektorien als kompakte Zwischen-Denkzustände wirken und einen neuen Trade-off zwischen latentem Rechenbudget, Ausgabelänge und Genauigkeit offenlegen.

English

Large language models solve complex problems by generating lengthy chains of explicit reasoning tokens. While effective, this makes reasoning expensive, length-sensitive, and constrained to (discrete) natural language. While latent reasoning offers a continuous alternative, determining useful structures for intermediate latent states is an open challenge. In this paper, we formulate latent reasoning as a geometric path-approximation problem within the model's pretrained token-embedding space. We introduce Geometric Latent Reasoning (GLR), which uses a lightweight transition head to predict iterative direction updates in embedding space. Using textual chain-of-thought traces as anchors, GLR learns to approximate discrete reasoning trajectories while permitting continuous deviations from exact token embeddings. Evaluations on mathematical reasoning benchmarks using Qwen3 models reveal an emergent phenomenon: geometric latent reasoning induces substantially shorter generations without an explicit length objective. By replacing early explicit reasoning with continuous latent steps, models often reach correct answers using substantially fewer total generation steps. These findings suggest that continuous trajectories act as compact intermediate reasoning states, exposing a new tradeoff between latent computation budget, output length, and accuracy.