ChatPaper.aiChatPaper

LYNX: Обучение динамическим выходам для контролируемого уверенностью рассуждения

LYNX: Learning Dynamic Exits for Confidence-Controlled Reasoning

December 5, 2025
Авторы: Ömer Faruk Akgül, Yusuf Hakan Kalaycı, Rajgopal Kannan, Willie Neiswanger, Viktor Prasanna
cs.AI

Аннотация

Крупные модели рассуждений демонстрируют высокую производительность на сложных задачах, генерируя развернутые цепочки мыслей, однако они часто «передумывают»: продолжают рассуждать еще долго после того, как у них уже достаточно информации для правильного ответа. Это приводит к неэффективным вычислительным затратам на этапе вывода и может снижать точность. Существующие попытки досрочной остановки либо манипулируют декодированием с помощью дополнительной выборки и эвристик, либо полагаются на вспомогательные модели-верификаторы, либо работают лишь как пассивные аналитические конвейеры без формальных гарантий. Мы представляем LYNX — механизм онлайн досрочного выхода, который превращает внутреннее осознание модели, основанное на ее скрытых состояниях, в решения об остановке, контролируемые уверенностью. LYNX привязывает решения о выходе к естественным сигналам рассуждения (например, «хм», «подождите») в процессе генерации, обучает легковесный пробник на скрытых состояниях в позициях этих сигналов, используя супервизию от принудительных выходов, и оборачивает полученные оценки в split conformal prediction для получения свободного от распределения контроля над преждевременными выходами. Ключевым моментом является то, что мы обучаем и калибруем этот пробник один раз на общем математическом корпусе и повторно используем его без изменений на различных бенчмарках, при разных температурах декодирования и даже на нематематических задачах. Для трех семейств моделей объемом от 1.5 до 32 миллиардов параметров, один математически обученный пробник на базовую модель обеспечивает выгодный компромисс между точностью и эффективностью. На GSM8K LYNX сохраняет или улучшает точность базового уровня, сокращая количество токенов на 40–65%; на MATH-500 он повышает точность до 12 процентных пунктов при сокращении токенов примерно на 35–60%; на AIME 2024 он восстанавливает базовую точность с экономией более 50% токенов; а на CommonsenseQA, нематематическом бенчмарке, он передается zero-shot с небольшим приростом точности и до 70% сокращением токенов. По сравнению с современными методами досрочного выхода, LYNX предлагает конкурентоспособные или превосходящие Парето-границы, оставаясь полностью онлайн-методом, не требующим прокси-моделей на этапе вывода и предоставляя явные, настраиваемые пользователем гарантии уверенности.
English
Large reasoning models achieve strong performance on complex tasks by generating extended chains of thought, but they often "overthink": continuing to reason long after they have enough information to answer correctly. This wastes inference-time compute and can hurt accuracy. Existing attempts to stop early either manipulate decoding with extra sampling and heuristics, rely on auxiliary verifier models, or operate only as post-hoc analysis pipelines without formal guarantees. We introduce LYNX, an online early-exit mechanism that turns a model's own hidden-state awareness into confidence-controlled stopping decisions. LYNX attaches exit decisions to naturally occurring reasoning cues (e.g., "hmm", "wait") during generation, trains a lightweight probe on hidden states at those cue tokens using supervision from forced exits, and wraps the resulting scores in split conformal prediction to obtain distribution-free control over premature exits. Crucially, we train and calibrate this probe once on a generic mathematical corpus and reuse it unchanged across benchmarks, decoding temperatures, and even non-mathematical tasks. Across three model families spanning 1.5B to 32B parameters, a single mathematically trained probe per base model yields strong accuracy--efficiency tradeoffs. On GSM8K, LYNX matches or improves baseline accuracy while reducing tokens by 40--65\%; on MATH-500 it improves accuracy by up to 12 points with roughly 35--60\% fewer tokens; on AIME 2024 it recovers baseline accuracy with more than 50\% token savings; and on CommonsenseQA, a non-math benchmark, it transfers zero-shot with modest accuracy gains and up to 70\% fewer tokens. Compared to state-of-the-art early-exit methods, LYNX offers competitive or superior Pareto frontiers while remaining fully online, requiring no proxy models at inference, and providing explicit, user-tunable confidence guarantees.
PDF21December 11, 2025