Raciocínio Latente Geométrico Induz Gerações Mais Curtas em LLMs

Resumo

Modelos de linguagem de grande escala resolvem problemas complexos gerando longas cadeias de tokens de raciocínio explícito. Embora eficaz, essa abordagem torna o raciocínio caro, sensível ao comprimento e restrito à linguagem natural (discreta). Embora o raciocínio latente ofereça uma alternativa contínua, determinar estruturas úteis para estados latentes intermediários continua sendo um desafio em aberto. Neste artigo, formulamos o raciocínio latente como um problema de aproximação geométrica de caminhos no espaço de embeddings de tokens pré-treinados do modelo. Introduzimos o Raciocínio Latente Geométrico (GLR), que utiliza uma cabeça de transição leve para prever atualizações iterativas de direção no espaço de embeddings. Usando trilhas textuais de cadeia de pensamento como âncoras, o GLR aprende a aproximar trajetórias de raciocínio discretas, ao mesmo tempo que permite desvios contínuos dos embeddings exatos de tokens. Avaliações em benchmarks de raciocínio matemático usando modelos Qwen3 revelam um fenômeno emergente: o raciocínio latente geométrico induz gerações substancialmente mais curtas sem um objetivo explícito de comprimento. Ao substituir o raciocínio explícito inicial por etapas latentes contínuas, os modelos frequentemente alcançam respostas corretas usando um número substancialmente menor de etapas de geração totais. Esses achados sugerem que trajetórias contínuas atuam como estados intermediários de raciocínio compactos, expondo um novo trade-off entre orçamento computacional latente, comprimento da saída e precisão.

English

Large language models solve complex problems by generating lengthy chains of explicit reasoning tokens. While effective, this makes reasoning expensive, length-sensitive, and constrained to (discrete) natural language. While latent reasoning offers a continuous alternative, determining useful structures for intermediate latent states is an open challenge. In this paper, we formulate latent reasoning as a geometric path-approximation problem within the model's pretrained token-embedding space. We introduce Geometric Latent Reasoning (GLR), which uses a lightweight transition head to predict iterative direction updates in embedding space. Using textual chain-of-thought traces as anchors, GLR learns to approximate discrete reasoning trajectories while permitting continuous deviations from exact token embeddings. Evaluations on mathematical reasoning benchmarks using Qwen3 models reveal an emergent phenomenon: geometric latent reasoning induces substantially shorter generations without an explicit length objective. By replacing early explicit reasoning with continuous latent steps, models often reach correct answers using substantially fewer total generation steps. These findings suggest that continuous trajectories act as compact intermediate reasoning states, exposing a new tradeoff between latent computation budget, output length, and accuracy.