LYNX : Apprentissage de sorties dynamiques pour un raisonnement contrôlé par la confiance

papers.abstract

Les grands modèles de raisonnement obtiennent des performances élevées sur des tâches complexes en générant de longues chaînes de pensée, mais ils « réfléchissent souvent trop » : ils continuent à raisonner bien après avoir obtenu suffisamment d'informations pour répondre correctement. Cela gaspille les ressources de calcul lors de l'inférence et peut nuire à la précision. Les tentatives existantes pour un arrêt précoce manipulent le décodage avec un échantillonnage supplémentaire et des heuristiques, reposent sur des modèles vérificateurs auxiliaires, ou fonctionnent uniquement comme des pipelines d'analyse post-hoc sans garanties formelles. Nous présentons LYNX, un mécanisme de sortie anticipée en ligne qui transforme la conscience propre de l'état caché d'un modèle en décisions d'arrêt contrôlées par la confiance. LYNX attache des décisions de sortie à des indices de raisonnement naturellement présents (par exemple, « hmm », « attends ») pendant la génération, entraîne une sonde légère sur les états cachés à ces tokens d'indice en utilisant une supervision provenant de sorties forcées, et intègre les scores résultants dans une prédiction conforme partitionnée pour obtenir un contrôle indépendant de la distribution sur les sorties prématurées. Fait crucial, nous entraînons et étalonnons cette sonde une fois sur un corpus mathématique générique et la réutilisons inchangée sur divers benchmarks, températures de décodage, et même des tâches non mathématiques. Sur trois familles de modèles couvrant 1,5 à 32 milliards de paramètres, une seule sonde entraînée mathématiquement par modèle de base produit de forts compromis précision-efficacité. Sur GSM8K, LYNX égale ou améliore la précision de base tout en réduisant les tokens de 40 à 65 % ; sur MATH-500, il améliore la précision jusqu'à 12 points avec environ 35 à 60 % de tokens en moins ; sur AIME 2024, il retrouve la précision de base avec plus de 50 % d'économie de tokens ; et sur CommonsenseQA, un benchmark non mathématique, il se transfère zero-shot avec des gains de précision modestes et jusqu'à 70 % de tokens en moins. Par rapport aux méthodes de sortie anticipée de pointe, LYNX offre des frontières de Pareto compétitives ou supérieures tout en restant entièrement en ligne, sans nécessiter de modèles proxy lors de l'inférence, et en fournissant des garanties de confiance explicites et ajustables par l'utilisateur.

English

Large reasoning models achieve strong performance on complex tasks by generating extended chains of thought, but they often "overthink": continuing to reason long after they have enough information to answer correctly. This wastes inference-time compute and can hurt accuracy. Existing attempts to stop early either manipulate decoding with extra sampling and heuristics, rely on auxiliary verifier models, or operate only as post-hoc analysis pipelines without formal guarantees. We introduce LYNX, an online early-exit mechanism that turns a model's own hidden-state awareness into confidence-controlled stopping decisions. LYNX attaches exit decisions to naturally occurring reasoning cues (e.g., "hmm", "wait") during generation, trains a lightweight probe on hidden states at those cue tokens using supervision from forced exits, and wraps the resulting scores in split conformal prediction to obtain distribution-free control over premature exits. Crucially, we train and calibrate this probe once on a generic mathematical corpus and reuse it unchanged across benchmarks, decoding temperatures, and even non-mathematical tasks. Across three model families spanning 1.5B to 32B parameters, a single mathematically trained probe per base model yields strong accuracy--efficiency tradeoffs. On GSM8K, LYNX matches or improves baseline accuracy while reducing tokens by 40--65\%; on MATH-500 it improves accuracy by up to 12 points with roughly 35--60\% fewer tokens; on AIME 2024 it recovers baseline accuracy with more than 50\% token savings; and on CommonsenseQA, a non-math benchmark, it transfers zero-shot with modest accuracy gains and up to 70\% fewer tokens. Compared to state-of-the-art early-exit methods, LYNX offers competitive or superior Pareto frontiers while remaining fully online, requiring no proxy models at inference, and providing explicit, user-tunable confidence guarantees.

LYNX : Apprentissage de sorties dynamiques pour un raisonnement contrôlé par la confiance

LYNX: Learning Dynamic Exits for Confidence-Controlled Reasoning

papers.abstract

Support