Le raisonnement latent géométrique induit des générations plus courtes dans les LLMs

Résumé

Les grands modèles de langage résolvent des problèmes complexes en générant de longues chaînes de tokens de raisonnement explicites. Bien que efficace, cette approche rend le raisonnement coûteux, sensible à la longueur et contraint au langage naturel (discret). Alors que le raisonnement latent offre une alternative continue, déterminer des structures utiles pour les états latents intermédiaires constitue un défi ouvert. Dans cet article, nous formulons le raisonnement latent comme un problème d’approximation de chemin géométrique dans l’espace de plongement de tokens pré-entraîné du modèle. Nous introduisons le raisonnement latent géométrique (GLR), qui utilise une tête de transition légère pour prédire des mises à jour itératives de direction dans l’espace de plongement. En utilisant des traces textuelles de chaîne de pensée comme ancres, GLR apprend à approximer des trajectoires de raisonnement discrètes tout en permettant des déviations continues par rapport aux plongements de tokens exacts. Des évaluations sur des benchmarks de raisonnement mathématique utilisant les modèles Qwen3 révèlent un phénomène émergent : le raisonnement latent géométrique induit des générations sensiblement plus courtes sans objectif explicite de longueur. En remplaçant le raisonnement explicite précoce par des étapes latentes continues, les modèles atteignent souvent des réponses correctes en utilisant nettement moins d’étapes de génération totales. Ces résultats suggèrent que les trajectoires continues agissent comme des états intermédiaires de raisonnement compacts, exposant un nouveau compromis entre le budget de calcul latent, la longueur de sortie et la précision.

English

Large language models solve complex problems by generating lengthy chains of explicit reasoning tokens. While effective, this makes reasoning expensive, length-sensitive, and constrained to (discrete) natural language. While latent reasoning offers a continuous alternative, determining useful structures for intermediate latent states is an open challenge. In this paper, we formulate latent reasoning as a geometric path-approximation problem within the model's pretrained token-embedding space. We introduce Geometric Latent Reasoning (GLR), which uses a lightweight transition head to predict iterative direction updates in embedding space. Using textual chain-of-thought traces as anchors, GLR learns to approximate discrete reasoning trajectories while permitting continuous deviations from exact token embeddings. Evaluations on mathematical reasoning benchmarks using Qwen3 models reveal an emergent phenomenon: geometric latent reasoning induces substantially shorter generations without an explicit length objective. By replacing early explicit reasoning with continuous latent steps, models often reach correct answers using substantially fewer total generation steps. These findings suggest that continuous trajectories act as compact intermediate reasoning states, exposing a new tradeoff between latent computation budget, output length, and accuracy.