LYNX: 신뢰도 제어 추론을 위한 동적 이그짓 학습
LYNX: Learning Dynamic Exits for Confidence-Controlled Reasoning
December 5, 2025
저자: Ömer Faruk Akgül, Yusuf Hakan Kalaycı, Rajgopal Kannan, Willie Neiswanger, Viktor Prasanna
cs.AI
초록
대규모 추론 모델은 복잡한 사고 연쇄를 생성하여 복잡한 작업에서 강력한 성능을 달성하지만, 종종 "과도 사고(overthink)"를 합니다: 정답을 도출할 충분한 정보를 얻은 후에도 오랫동안 추론을 지속하는 것입니다. 이는 추론 시점의 컴퓨팅 자원을 낭비하고 정확도를 저하시킬 수 있습니다. 기존의 조기 중단 시도는 추가 샘플링 및 휴리스틱으로 디코딩을 조작하거나, 보조 검증 모델에 의존하거나, 형식적 보장 없이 사후 분석 파이프라인으로만 작동합니다. 우리는 모델의 자체 은닉 상태 인식을 신뢰도 기반 중단 결정으로 전환하는 온라인 조기 종료 메커니즘인 LYNX를 소개합니다. LYNX는 생성 과정에서 자연스럽게 발생하는 추론 신호(예: "흠", "잠깐")에 종료 결정을 부착하고, 강제 종료에서 얻은 감독 정보를 사용하여 해당 신호 토큰 위치의 은닉 상태에 대해 경량 프로브를 훈련시키며, 결과 점수를 분할 콘포멀 예측(split conformal prediction)으로 래핑하여 조기 종료에 대한 분포 독립적 제어를 획득합니다. 중요한 것은, 우리가 이 프로브를 일반적인 수학 코퍼스에서 한 번 훈련 및 보정한 후 벤치마크, 디코딩 온도, 심지어 비수학적 작업에 걸쳐 변경 없이 재사용한다는 점입니다. 15B에서 32B 파라미터에 이르는 세 가지 모델 패밀리 전체에서, 기본 모델당 단일 수학 훈련 프로브는 강력한 정확도-효율성 트레이드오프를 제공합니다. GSM8K에서 LYNX는 기준선 정확도를 유지하거나 개선하면서 토큰 수를 40-65% 절감합니다; MATH-500에서는 토큰 수를 약 35-60% 줄이면서 정확도를 최대 12점까지 향상시킵니다; AIME 2024에서는 기준선 정확도를 회복하면서 50% 이상의 토큰을 절약합니다; 그리고 비수학 벤치마크인 CommonsenseQA에서는 제로샷 전이로 약간의 정확도 향상과 최대 70%의 토큰 절감 효과를 보입니다. 최신 조기 종료 방법과 비교했을 때, LYNX는 경쟁력 있거나 우수한 파레토 프론티어를 제공하면서도 완전히 온라인 상태를 유지하고, 추론 시 프록시 모델이 필요 없으며, 명시적이고 사용자 조정 가능한 신뢰도 보장을 제공합니다.
English
Large reasoning models achieve strong performance on complex tasks by generating extended chains of thought, but they often "overthink": continuing to reason long after they have enough information to answer correctly. This wastes inference-time compute and can hurt accuracy. Existing attempts to stop early either manipulate decoding with extra sampling and heuristics, rely on auxiliary verifier models, or operate only as post-hoc analysis pipelines without formal guarantees. We introduce LYNX, an online early-exit mechanism that turns a model's own hidden-state awareness into confidence-controlled stopping decisions. LYNX attaches exit decisions to naturally occurring reasoning cues (e.g., "hmm", "wait") during generation, trains a lightweight probe on hidden states at those cue tokens using supervision from forced exits, and wraps the resulting scores in split conformal prediction to obtain distribution-free control over premature exits. Crucially, we train and calibrate this probe once on a generic mathematical corpus and reuse it unchanged across benchmarks, decoding temperatures, and even non-mathematical tasks. Across three model families spanning 1.5B to 32B parameters, a single mathematically trained probe per base model yields strong accuracy--efficiency tradeoffs. On GSM8K, LYNX matches or improves baseline accuracy while reducing tokens by 40--65\%; on MATH-500 it improves accuracy by up to 12 points with roughly 35--60\% fewer tokens; on AIME 2024 it recovers baseline accuracy with more than 50\% token savings; and on CommonsenseQA, a non-math benchmark, it transfers zero-shot with modest accuracy gains and up to 70\% fewer tokens. Compared to state-of-the-art early-exit methods, LYNX offers competitive or superior Pareto frontiers while remaining fully online, requiring no proxy models at inference, and providing explicit, user-tunable confidence guarantees.