Geometrisch Latent Redeneren Induceert Kortere Generaties in LLM's

Samenvatting

Grote taalmodellen lossen complexe problemen op door lange ketens van expliciete redeneertokens te genereren. Hoewel dit effectief is, maakt het redeneren duur, lengtegevoelig en beperkt tot (discrete) natuurlijke taal. Latente redenering biedt een continu alternatief, maar het bepalen van nuttige structuren voor tussentijdse latente toestanden is een open uitdaging. In dit artikel formuleren we latente redenering als een geometrisch pad-benaderingsprobleem binnen de voorgetrainde token-inbeddingsruimte van het model. We introduceren Geometrische Latente Redenering (GLR), die een lichtgewicht overgangskop gebruikt om iteratieve richtingsupdates in de inbeddingsruimte te voorspellen. Door gebruik te maken van tekstuele keten-van-gedachte-sporen als ankers, leert GLR discrete redeneertrajecten te benaderen, terwijl continue afwijkingen van exacte token-inbeddingen worden toegestaan. Evaluaties op wiskundige redeneerbenchmarks met Qwen3-modellen onthullen een opkomend fenomeen: geometrische latente redenering induceert aanzienlijk kortere generaties zonder een expliciete lengtedoelstelling. Door vroege expliciete redenering te vervangen door continue latente stappen, bereiken modellen vaak correcte antwoorden met aanzienlijk minder totale generatiestappen. Deze bevindingen suggereren dat continue trajecten fungeren als compacte tussentijdse redeneertoestanden, wat een nieuwe afweging blootlegt tussen latent rekenbudget, uitvoerlengte en nauwkeurigheid.

English

Large language models solve complex problems by generating lengthy chains of explicit reasoning tokens. While effective, this makes reasoning expensive, length-sensitive, and constrained to (discrete) natural language. While latent reasoning offers a continuous alternative, determining useful structures for intermediate latent states is an open challenge. In this paper, we formulate latent reasoning as a geometric path-approximation problem within the model's pretrained token-embedding space. We introduce Geometric Latent Reasoning (GLR), which uses a lightweight transition head to predict iterative direction updates in embedding space. Using textual chain-of-thought traces as anchors, GLR learns to approximate discrete reasoning trajectories while permitting continuous deviations from exact token embeddings. Evaluations on mathematical reasoning benchmarks using Qwen3 models reveal an emergent phenomenon: geometric latent reasoning induces substantially shorter generations without an explicit length objective. By replacing early explicit reasoning with continuous latent steps, models often reach correct answers using substantially fewer total generation steps. These findings suggest that continuous trajectories act as compact intermediate reasoning states, exposing a new tradeoff between latent computation budget, output length, and accuracy.