LYNX: Aprendizado de Saídas Dinâmicas para Raciocínio Controlado por Confiança
LYNX: Learning Dynamic Exits for Confidence-Controlled Reasoning
December 5, 2025
Autores: Ömer Faruk Akgül, Yusuf Hakan Kalaycı, Rajgopal Kannan, Willie Neiswanger, Viktor Prasanna
cs.AI
Resumo
Os grandes modelos de raciocínio alcançam forte desempenho em tarefas complexas gerando cadeias de pensamento extensas, mas frequentemente "pensam demais": continuam a raciocinar muito depois de terem informações suficientes para responder corretamente. Isso desperdiça computação no momento da inferência e pode prejudicar a precisão. As tentativas existentes de parada antecipada ou manipulam a decodificação com amostragem extra e heurísticas, dependem de modelos verificadores auxiliares, ou operam apenas como pipelines de análise post-hoc sem garantias formais. Apresentamos o LYNX, um mecanismo de saída antecipada online que transforma a autoconsciência do estado interno do modelo em decisões de parada controladas por confiança. O LYNX vincula decisões de saída a pistas de raciocínio que ocorrem naturalmente (ex: "hmm", "espera") durante a geração, treina uma sonda leve nos estados internos nesses tokens de pista usando supervisão de saídas forçadas, e encapsula as pontuações resultantes em predição conformal split para obter controle livre de distribuição sobre saídas prematuras. Crucialmente, treinamos e calibramos esta sonda uma vez em um corpus matemático genérico e a reutilizamos inalterada em benchmarks, temperaturas de decodificação e até mesmo em tarefas não matemáticas. Em três famílias de modelos abrangendo de 1,5B a 32B de parâmetros, uma única sonda treinada matematicamente por modelo base produz fortes compensações entre precisão e eficiência. No GSM8K, o LYNX iguala ou melhora a precisão da linha de base enquanto reduz os tokens em 40–65%; no MATH-500 ele melhora a precisão em até 12 pontos com aproximadamente 35–60% menos tokens; no AIME 2024 ele recupera a precisão da linha de base com economia de mais de 50% nos tokens; e no CommonsenseQA, um benchmark não matemático, ele transfere zero-shot com ganhos modestos de precisão e até 70% menos tokens. Comparado aos métodos state-of-the-art de saída antecipada, o LYNX oferece fronteiras de Pareto competitivas ou superiores, mantendo-se totalmente online, não exigindo modelos proxy na inferência e fornecendo garantias de confiança explícitas e ajustáveis pelo usuário.
English
Large reasoning models achieve strong performance on complex tasks by generating extended chains of thought, but they often "overthink": continuing to reason long after they have enough information to answer correctly. This wastes inference-time compute and can hurt accuracy. Existing attempts to stop early either manipulate decoding with extra sampling and heuristics, rely on auxiliary verifier models, or operate only as post-hoc analysis pipelines without formal guarantees. We introduce LYNX, an online early-exit mechanism that turns a model's own hidden-state awareness into confidence-controlled stopping decisions. LYNX attaches exit decisions to naturally occurring reasoning cues (e.g., "hmm", "wait") during generation, trains a lightweight probe on hidden states at those cue tokens using supervision from forced exits, and wraps the resulting scores in split conformal prediction to obtain distribution-free control over premature exits. Crucially, we train and calibrate this probe once on a generic mathematical corpus and reuse it unchanged across benchmarks, decoding temperatures, and even non-mathematical tasks. Across three model families spanning 1.5B to 32B parameters, a single mathematically trained probe per base model yields strong accuracy--efficiency tradeoffs. On GSM8K, LYNX matches or improves baseline accuracy while reducing tokens by 40--65\%; on MATH-500 it improves accuracy by up to 12 points with roughly 35--60\% fewer tokens; on AIME 2024 it recovers baseline accuracy with more than 50\% token savings; and on CommonsenseQA, a non-math benchmark, it transfers zero-shot with modest accuracy gains and up to 70\% fewer tokens. Compared to state-of-the-art early-exit methods, LYNX offers competitive or superior Pareto frontiers while remaining fully online, requiring no proxy models at inference, and providing explicit, user-tunable confidence guarantees.