ChatPaper.aiChatPaper

LYNX: Dynamische Exits für konfidenzgesteuertes Reasoning erlernen

LYNX: Learning Dynamic Exits for Confidence-Controlled Reasoning

December 5, 2025
papers.authors: Ömer Faruk Akgül, Yusuf Hakan Kalaycı, Rajgopal Kannan, Willie Neiswanger, Viktor Prasanna
cs.AI

papers.abstract

Große Reasoning-Modelle erzielen bei komplexen Aufgaben eine hohe Leistung, indem sie lange Gedankenketten generieren, doch sie „überdenken“ oft: Sie setzen das Reasoning fort, lange nachdem sie genug Informationen für eine korrekte Antwort haben. Dies verschwendet Rechenressourcen während der Inferenz und kann die Genauigkeit beeinträchtigen. Bisherige Ansätze für einen vorzeitigen Stopp manipulieren entweder die Decodierung durch zusätzliches Sampling und Heuristiken, verlassen sich auf zusätzliche Verifikationsmodelle oder arbeiten nur als nachgelagerte Analyse-Pipelines ohne formale Garantien. Wir stellen LYNX vor, einen Online-Early-Exit-Mechanismus, der das eigene Bewusstsein des Modells über seinen versteckten Zustand in konfidenzgesteuerte Stopp-Entscheidungen umwandelt. LYNX verknüpft Exit-Entscheidungen mit natürlich auftretenden Reasoning-Signalen (z.B. „hmm“, „warte“) während der Generierung, trainiert eine leichte Sonde (Probe) auf den Hidden States an diesen Signal-Tokens unter Verwendung von Supervision durch erzwungene Exits und umhüllt die resultierenden Scores mit Split Conformal Prediction, um eine verteilungsfreie Kontrolle über vorzeitige Exits zu erhalten. Entscheidend ist, dass wir diese Sonde einmalig auf einem generischen mathematischen Korpus trainieren und kalibrieren und sie unverändert über Benchmarks, Decodierungstemperaturen und sogar nicht-mathematische Aufgaben hinweg wiederverwenden. Über drei Modellfamilien mit 1,5B bis 32B Parametern hinweg erzielt eine einzige, mathematisch trainierte Sonde pro Basismodell starke Kompromisse zwischen Genauigkeit und Effizienz. Auf GSM8K erreicht LYNX die Baseline-Genauigkeit oder übertrifft sie, bei einer Reduktion der Tokens um 40–65 %; auf MATH-500 verbessert es die Genauigkeit um bis zu 12 Prozentpunkte bei etwa 35–60 % weniger Tokens; auf AIME 2024 erreicht es die Baseline-Genauigkeit mit mehr als 50 % Token-Einsparung; und auf CommonsenseQA, einem nicht-mathematischen Benchmark, überträgt es Zero-Shot mit moderaten Genauigkeitssteigerungen und bis zu 70 % weniger Tokens. Im Vergleich zu state-of-the-art Early-Exit-Methoden bietet LYNX konkurrenzfähige oder überlegene Pareto-Fronten, bleibt dabei vollständig online, benötigt keine Proxy-Modelle während der Inferenz und bietet explizite, benutzeranpassbare Konfidenzgarantien.
English
Large reasoning models achieve strong performance on complex tasks by generating extended chains of thought, but they often "overthink": continuing to reason long after they have enough information to answer correctly. This wastes inference-time compute and can hurt accuracy. Existing attempts to stop early either manipulate decoding with extra sampling and heuristics, rely on auxiliary verifier models, or operate only as post-hoc analysis pipelines without formal guarantees. We introduce LYNX, an online early-exit mechanism that turns a model's own hidden-state awareness into confidence-controlled stopping decisions. LYNX attaches exit decisions to naturally occurring reasoning cues (e.g., "hmm", "wait") during generation, trains a lightweight probe on hidden states at those cue tokens using supervision from forced exits, and wraps the resulting scores in split conformal prediction to obtain distribution-free control over premature exits. Crucially, we train and calibrate this probe once on a generic mathematical corpus and reuse it unchanged across benchmarks, decoding temperatures, and even non-mathematical tasks. Across three model families spanning 1.5B to 32B parameters, a single mathematically trained probe per base model yields strong accuracy--efficiency tradeoffs. On GSM8K, LYNX matches or improves baseline accuracy while reducing tokens by 40--65\%; on MATH-500 it improves accuracy by up to 12 points with roughly 35--60\% fewer tokens; on AIME 2024 it recovers baseline accuracy with more than 50\% token savings; and on CommonsenseQA, a non-math benchmark, it transfers zero-shot with modest accuracy gains and up to 70\% fewer tokens. Compared to state-of-the-art early-exit methods, LYNX offers competitive or superior Pareto frontiers while remaining fully online, requiring no proxy models at inference, and providing explicit, user-tunable confidence guarantees.
PDF21December 11, 2025