Razonamiento latente geométrico induce generaciones más cortas en los LLMs.

Resumen

Los modelos de lenguaje grandes resuelven problemas complejos generando largas cadenas de tokens explícitos de razonamiento. Aunque efectivo, esto hace que el razonamiento sea costoso, sensible a la longitud y restringido al lenguaje natural (discreto). Si bien el razonamiento latente ofrece una alternativa continua, determinar estructuras útiles para los estados latentes intermedios es un desafío abierto. En este artículo, formulamos el razonamiento latente como un problema de aproximación geométrica de trayectorias dentro del espacio de incrustación de tokens preentrenado del modelo. Introducimos el Razonamiento Latente Geométrico (GLR, por sus siglas en inglés), que utiliza una cabeza de transición ligera para predecir actualizaciones iterativas de dirección en el espacio de incrustación. Usando trazas textuales de cadena de pensamiento como anclajes, GLR aprende a aproximar trayectorias discretas de razonamiento mientras permite desviaciones continuas de las incrustaciones exactas de tokens. Las evaluaciones en puntos de referencia de razonamiento matemático con modelos Qwen3 revelan un fenómeno emergente: el razonamiento latente geométrico induce generaciones sustancialmente más cortas sin un objetivo explícito de longitud. Al reemplazar el razonamiento explícito temprano con pasos latentes continuos, los modelos a menudo alcanzan respuestas correctas utilizando sustancialmente menos pasos totales de generación. Estos hallazgos sugieren que las trayectorias continuas actúan como estados intermedios de razonamiento compactos, exponiendo un nuevo equilibrio entre el presupuesto de cómputo latente, la longitud de salida y la precisión.

English

Large language models solve complex problems by generating lengthy chains of explicit reasoning tokens. While effective, this makes reasoning expensive, length-sensitive, and constrained to (discrete) natural language. While latent reasoning offers a continuous alternative, determining useful structures for intermediate latent states is an open challenge. In this paper, we formulate latent reasoning as a geometric path-approximation problem within the model's pretrained token-embedding space. We introduce Geometric Latent Reasoning (GLR), which uses a lightweight transition head to predict iterative direction updates in embedding space. Using textual chain-of-thought traces as anchors, GLR learns to approximate discrete reasoning trajectories while permitting continuous deviations from exact token embeddings. Evaluations on mathematical reasoning benchmarks using Qwen3 models reveal an emergent phenomenon: geometric latent reasoning induces substantially shorter generations without an explicit length objective. By replacing early explicit reasoning with continuous latent steps, models often reach correct answers using substantially fewer total generation steps. These findings suggest that continuous trajectories act as compact intermediate reasoning states, exposing a new tradeoff between latent computation budget, output length, and accuracy.