EpiCaR: Weten wat je niet weet is van belang voor beter redeneren in LLM's
EpiCaR: Knowing What You Don't Know Matters for Better Reasoning in LLMs
January 11, 2026
Auteurs: Jewon Yeom, Jaewon Sok, Seonghyeon Park, Jeongjae Park, Taesup Kim
cs.AI
Samenvatting
Het verbeteren van de redeneervermogens van grote taalmodellen (LLM's) is grotendeels gebaseerd op iteratieve zelf-training met door het model gegenereerde data. Hoewel bestaande benaderingen effectief zijn in het verhogen van de nauwkeurigheid, versterken ze voornamelijk succesvolle redeneerpaden, wat een aanzienlijke kalibratiekost met zich meebrengt: modellen worden overmoedig en verliezen het vermogen om onzekerheid te representeren. Dit falen is gekarakteriseerd als een vorm van model-instorting bij alignment, waarbij voorspellende verdelingen degenereren naar puntschattingen met een lage variantie. Wij pakken dit probleem aan door redeneertraining te herformuleren als een epistemisch leerprobleem, waarbij modellen niet alleen moeten leren redeneren, maar ook wanneer ze hun redenering moeten vertrouwen. Wij stellen epistemisch gekalibreerd redeneren (EpiCaR) voor als een trainingsdoelstelling die redeneerprestaties en kalibratie gezamenlijk optimaliseert, en implementeren dit binnen een iteratief supervised fine-tuning raamwerk met expliciete zelfevaluatiesignalen. Experimenten met de Llama-3- en Qwen-3-families tonen aan dat onze benadering Pareto-superioriteit bereikt ten opzichte van standaard-baselines in zowel nauwkeurigheid als kalibratie, vooral bij modellen met voldoende redeneercapaciteit (bijv. 3B+). Dit raamwerk generaliseert effectief naar OOD wiskundig redeneren (GSM8K) en codegeneratie (MBPP). Uiteindelijk stelt onze aanpak een 3X reductie in rekenkracht tijdens inferentie mogelijk, waarbij de K=30 prestatie van STaR wordt geëvenaard met slechts K=10 steekproeven in capabele modellen.
English
Improving the reasoning abilities of large language models (LLMs) has largely relied on iterative self-training with model-generated data. While effective at boosting accuracy, existing approaches primarily reinforce successful reasoning paths, incurring a substantial calibration cost: models become overconfident and lose the ability to represent uncertainty. This failure has been characterized as a form of model collapse in alignment, where predictive distributions degenerate toward low-variance point estimates. We address this issue by reframing reasoning training as an epistemic learning problem, in which models must learn not only how to reason, but also when their reasoning should be trusted. We propose epistemically-calibrated reasoning (EpiCaR) as a training objective that jointly optimizes reasoning performance and calibration, and instantiate it within an iterative supervised fine-tuning framework using explicit self-evaluation signals. Experiments on Llama-3 and Qwen-3 families demonstrate that our approach achieves Pareto-superiority over standard baselines in both accuracy and calibration, particularly in models with sufficient reasoning capacity (e.g., 3B+). This framework generalizes effectively to OOD mathematical reasoning (GSM8K) and code generation (MBPP). Ultimately, our approach enables a 3X reduction in inference compute, matching the K=30 performance of STaR with only K=10 samples in capable models.