EpiCaR: Zu wissen, was man nicht weiß, ist entscheidend für besseres Schließen in großen Sprachmodellen
EpiCaR: Knowing What You Don't Know Matters for Better Reasoning in LLMs
January 11, 2026
papers.authors: Jewon Yeom, Jaewon Sok, Seonghyeon Park, Jeongjae Park, Taesup Kim
cs.AI
papers.abstract
Die Verbesserung der reasoning-Fähigkeiten großer Sprachmodelle (LLMs) stützt sich weitgehend auf iteratives Selbsttraining mit modellgenerierten Daten. Obwohl bestehende Ansätze effektiv die Genauigkeit steigern, verstärken sie primär erfolgreiche reasoning-Pfade und verursachen dadurch erhebliche Kalibrierungskosten: Modelle werden übermäßig selbstsicher und verlieren die Fähigkeit, Unsicherheit zu repräsentieren. Dieses Versagen wurde als eine Form des Model Collapse in der Alignment-Forschung charakterisiert, bei der sich die prädiktiven Verteilungen zu Punkt-Schätzern mit geringer Varianz degenerieren. Wir adressieren dieses Problem, indem wir reasoning-Training als epistemisches Lernproblem neu definieren, bei dem Modelle nicht nur lernen müssen, wie man schlussfolgert, sondern auch, wann ihrem reasoning vertraut werden sollte. Wir schlagen epistemisch kalibriertes reasoning (EpiCaR) als Trainingsziel vor, das reasoning-Leistung und Kalibrierung gemeinsam optimiert, und instanziieren es innerhalb eines iterativen Supervised Fine-Tuning-Frameworks unter Verwendung expliziter Selbstevaluationssignale. Experimente mit Llama-3- und Qwen-3-Modellfamilien demonstrieren, dass unser Ansatz Pareto-Superiorität gegenüber Standard-Baselines sowohl in Genauigkeit als auch Kalibrierung erreicht, insbesondere bei Modellen mit hinreichender reasoning-Kapazität (z.B. 3B+). Dieses Framework generalisiert effektiv auf OOD-mathematisches reasoning (GSM8K) und Code-Generierung (MBPP). Letztendlich ermöglicht unser Ansatz eine 3-fache Reduktion des Inferenz-Rechenaufwands, indem er die K=30-Leistung von STaR mit nur K=10 Stichproben in leistungsfähigen Modellen erreicht.
English
Improving the reasoning abilities of large language models (LLMs) has largely relied on iterative self-training with model-generated data. While effective at boosting accuracy, existing approaches primarily reinforce successful reasoning paths, incurring a substantial calibration cost: models become overconfident and lose the ability to represent uncertainty. This failure has been characterized as a form of model collapse in alignment, where predictive distributions degenerate toward low-variance point estimates. We address this issue by reframing reasoning training as an epistemic learning problem, in which models must learn not only how to reason, but also when their reasoning should be trusted. We propose epistemically-calibrated reasoning (EpiCaR) as a training objective that jointly optimizes reasoning performance and calibration, and instantiate it within an iterative supervised fine-tuning framework using explicit self-evaluation signals. Experiments on Llama-3 and Qwen-3 families demonstrate that our approach achieves Pareto-superiority over standard baselines in both accuracy and calibration, particularly in models with sufficient reasoning capacity (e.g., 3B+). This framework generalizes effectively to OOD mathematical reasoning (GSM8K) and code generation (MBPP). Ultimately, our approach enables a 3X reduction in inference compute, matching the K=30 performance of STaR with only K=10 samples in capable models.