LYNX: Aprendizaje de Salidas Dinámicas para el Razonamiento Controlado por Confianza
LYNX: Learning Dynamic Exits for Confidence-Controlled Reasoning
December 5, 2025
Autores: Ömer Faruk Akgül, Yusuf Hakan Kalaycı, Rajgopal Kannan, Willie Neiswanger, Viktor Prasanna
cs.AI
Resumen
Los grandes modelos de razonamiento logran un alto rendimiento en tareas complejas generando cadenas de pensamiento extensas, pero a menudo "piensan demasiado": continúan razonando mucho después de tener suficiente información para responder correctamente. Esto desperdicia capacidad computacional en la inferencia y puede perjudicar la precisión. Los intentos existentes para detenerse temprano manipulan la decodificación con muestreo adicional y heurísticas, dependen de modelos verificadores auxiliares, o operan solo como pipelines de análisis post-hoc sin garantías formales. Presentamos LYNX, un mecanismo de salida temprana en línea que convierte la conciencia del estado oculto del modelo en decisiones de parada controladas por confianza. LYNX asocia decisiones de salida a indicios de razonamiento que ocurren naturalmente (ej. "hum", "espera") durante la generación, entrena un probe ligero en los estados ocultos en esos tokens indicio usando supervisión de salidas forzadas, y envuelve las puntuaciones resultantes en predicción conformal split para obtener control libre de distribución sobre las salidas prematuras. Crucialmente, entrenamos y calibramos este probe una vez en un corpus matemático genérico y lo reutilizamos sin cambios en diferentes benchmarks, temperaturas de decodificación e incluso tareas no matemáticas. En tres familias de modelos que abarcan de 1.5B a 32B parámetros, un único probe entrenado matemáticamente por modelo base produce sólidas compensaciones precisión-eficiencia. En GSM8K, LYNX iguala o mejora la precisión basal reduciendo tokens en un 40-65%; en MATH-500 mejora la precisión hasta 12 puntos con aproximadamente un 35-60% menos de tokens; en AIME 2024 recupera la precisión basal con ahorros de más del 50% en tokens; y en CommonsenseQA, un benchmark no matemático, se transfiere zero-shot con ganancias modestas de precisión y hasta un 70% menos de tokens. Comparado con los métodos state-of-the-art de salida temprana, LYNX ofrece fronteras de Pareto competitivas o superiores mientras permanece completamente en línea, no requiere modelos proxy en la inferencia y proporciona garantías de confianza explícitas y ajustables por el usuario.
English
Large reasoning models achieve strong performance on complex tasks by generating extended chains of thought, but they often "overthink": continuing to reason long after they have enough information to answer correctly. This wastes inference-time compute and can hurt accuracy. Existing attempts to stop early either manipulate decoding with extra sampling and heuristics, rely on auxiliary verifier models, or operate only as post-hoc analysis pipelines without formal guarantees. We introduce LYNX, an online early-exit mechanism that turns a model's own hidden-state awareness into confidence-controlled stopping decisions. LYNX attaches exit decisions to naturally occurring reasoning cues (e.g., "hmm", "wait") during generation, trains a lightweight probe on hidden states at those cue tokens using supervision from forced exits, and wraps the resulting scores in split conformal prediction to obtain distribution-free control over premature exits. Crucially, we train and calibrate this probe once on a generic mathematical corpus and reuse it unchanged across benchmarks, decoding temperatures, and even non-mathematical tasks. Across three model families spanning 1.5B to 32B parameters, a single mathematically trained probe per base model yields strong accuracy--efficiency tradeoffs. On GSM8K, LYNX matches or improves baseline accuracy while reducing tokens by 40--65\%; on MATH-500 it improves accuracy by up to 12 points with roughly 35--60\% fewer tokens; on AIME 2024 it recovers baseline accuracy with more than 50\% token savings; and on CommonsenseQA, a non-math benchmark, it transfers zero-shot with modest accuracy gains and up to 70\% fewer tokens. Compared to state-of-the-art early-exit methods, LYNX offers competitive or superior Pareto frontiers while remaining fully online, requiring no proxy models at inference, and providing explicit, user-tunable confidence guarantees.