EpiCaR : Savoir ce que l'on ignore est essentiel pour un meilleur raisonnement dans les LLM
EpiCaR: Knowing What You Don't Know Matters for Better Reasoning in LLMs
January 11, 2026
papers.authors: Jewon Yeom, Jaewon Sok, Seonghyeon Park, Jeongjae Park, Taesup Kim
cs.AI
papers.abstract
L'amélioration des capacités de raisonnement des grands modèles de langage (LLM) repose largement sur un auto-apprentissage itératif avec des données générées par le modèle. Bien qu'efficaces pour augmenter la précision, les approches existantes renforcent principalement les chemins de raisonnement réussis, entraînant un coût de calibration substantiel : les modèles deviennent trop confiants et perdent la capacité de représenter l'incertitude. Cet échec a été caractérisé comme une forme d'effondrement du modèle lors de l'alignement, où les distributions prédictives dégénèrent vers des estimations ponctuelles à faible variance. Nous abordons ce problème en reformulant l'entraînement au raisonnement comme un problème d'apprentissage épistémique, dans lequel les modèles doivent apprendre non seulement à raisonner, mais aussi quand leur raisonnement peut être jugé fiable. Nous proposons le raisonnement à calibration épistémique (EpiCaR) comme un objectif d'entraînement qui optimise conjointement la performance du raisonnement et sa calibration, et nous l'instancions dans un cadre d'affinage supervisé itératif en utilisant des signaux explicites d'auto-évaluation. Les expériences sur les familles Llama-3 et Qwen-3 démontrent que notre approche atteint une supériorité de Pareto par rapport aux lignes de base standard en termes de précision et de calibration, en particulier pour les modèles disposant d'une capacité de raisonnement suffisante (par exemple, 3B+). Ce cadre se généralise efficacement au raisonnement mathématique hors distribution (GSM8K) et à la génération de code (MBPP). En définitive, notre approche permet une réduction par 3 de la puissance de calcul à l'inférence, égalant la performance K=30 de STaR avec seulement K=10 échantillons dans les modèles capables.
English
Improving the reasoning abilities of large language models (LLMs) has largely relied on iterative self-training with model-generated data. While effective at boosting accuracy, existing approaches primarily reinforce successful reasoning paths, incurring a substantial calibration cost: models become overconfident and lose the ability to represent uncertainty. This failure has been characterized as a form of model collapse in alignment, where predictive distributions degenerate toward low-variance point estimates. We address this issue by reframing reasoning training as an epistemic learning problem, in which models must learn not only how to reason, but also when their reasoning should be trusted. We propose epistemically-calibrated reasoning (EpiCaR) as a training objective that jointly optimizes reasoning performance and calibration, and instantiate it within an iterative supervised fine-tuning framework using explicit self-evaluation signals. Experiments on Llama-3 and Qwen-3 families demonstrate that our approach achieves Pareto-superiority over standard baselines in both accuracy and calibration, particularly in models with sufficient reasoning capacity (e.g., 3B+). This framework generalizes effectively to OOD mathematical reasoning (GSM8K) and code generation (MBPP). Ultimately, our approach enables a 3X reduction in inference compute, matching the K=30 performance of STaR with only K=10 samples in capable models.