ChatPaper.aiChatPaper

EpiCaR: 더 나은 LLM 추론을 위해 아는 것만큼 모르는 것을 아는 것도 중요하다

EpiCaR: Knowing What You Don't Know Matters for Better Reasoning in LLMs

January 11, 2026
저자: Jewon Yeom, Jaewon Sok, Seonghyeon Park, Jeongjae Park, Taesup Kim
cs.AI

초록

대규모 언어 모델(LLM)의 추론 능력 향상은 주로 모델 생성 데이터를 활용한 반복적 자기 훈련에 의존해 왔습니다. 정확도 향상에는 효과적이지만, 기존 접근법은 주로 성공적인 추론 경로를 강화하여 상당한 보정 비용을 초래합니다. 즉, 모델이 과도하게 자신감을 갖게 되고 불확실성을 표현하는 능력을 상실합니다. 이러한 실패는 정렬 과정에서의 일종의 모델 붕괴로 특징지어지며, 예측 분포가 낮은 분산을 가진 점 추정치로 퇴화하게 됩니다. 우리는 이 문제를 인식론적 학습 문제로 재구성하여 모델이 추론 방법뿐만 아니라 언제 자신의 추론을 신뢰해야 하는지도 학습해야 한다는 관점으로 접근합니다. 우리는 추론 성능과 보정을 함께 최적화하는 훈련 목표로서 인식론적으로 보정된 추론(EpiCaR)을 제안하고, 명시적 자기 평가 신호를 사용하는 반복적 지도 미세 조정 프레임워크 내에서 이를 구현합니다. Llama-3 및 Qwen-3 모델군에 대한 실험 결과, 우리의 접근 방식이 특히 충분한 추론 능력을 가진 모델(예: 3B+)에서 정확도와 보정 측면 모두에서 표준 기준선 대비 파레토 우월성을 달성함을 보여줍니다. 이 프레임워크는 OOD 수학 추론(GSM8K) 및 코드 생성(MBPP)에도 효과적으로 일반화됩니다. 궁극적으로, 우리의 접근 방식은 추론 시 필요한 계산량을 3분의 1로 줄이는 동시에, 능력 있는 모델에서 K=10 샘플만으로 STaR의 K=30 성능에 맞출 수 있게 합니다.
English
Improving the reasoning abilities of large language models (LLMs) has largely relied on iterative self-training with model-generated data. While effective at boosting accuracy, existing approaches primarily reinforce successful reasoning paths, incurring a substantial calibration cost: models become overconfident and lose the ability to represent uncertainty. This failure has been characterized as a form of model collapse in alignment, where predictive distributions degenerate toward low-variance point estimates. We address this issue by reframing reasoning training as an epistemic learning problem, in which models must learn not only how to reason, but also when their reasoning should be trusted. We propose epistemically-calibrated reasoning (EpiCaR) as a training objective that jointly optimizes reasoning performance and calibration, and instantiate it within an iterative supervised fine-tuning framework using explicit self-evaluation signals. Experiments on Llama-3 and Qwen-3 families demonstrate that our approach achieves Pareto-superiority over standard baselines in both accuracy and calibration, particularly in models with sufficient reasoning capacity (e.g., 3B+). This framework generalizes effectively to OOD mathematical reasoning (GSM8K) and code generation (MBPP). Ultimately, our approach enables a 3X reduction in inference compute, matching the K=30 performance of STaR with only K=10 samples in capable models.
PDF51January 15, 2026