ChatPaper.aiChatPaper

EpiCaR:より良い推論のためには「知らないこと」の認識が重要である

EpiCaR: Knowing What You Don't Know Matters for Better Reasoning in LLMs

January 11, 2026
著者: Jewon Yeom, Jaewon Sok, Seonghyeon Park, Jeongjae Park, Taesup Kim
cs.AI

要旨

大規模言語モデル(LLM)の推論能力向上は、モデル生成データを用いた反復的自己学習に大きく依存してきた。精度向上に効果的である一方、既存手法は主に成功した推論経路を強化するため、多大な較正コストが生じる:モデルは過信傾向を示し、不確実性を表現する能力を失ってしまう。この問題はアライメントにおけるモデル崩壊の一形態として特徴づけられており、予測分布が低分散の点推定へと退化する。本研究では、推論訓練を認識論的学習問題として再定義することでこの課題に取り組む。モデルは推論方法を学ぶだけでなく、自身の推論がいつ信頼に値するかを学習しなければならない。我々は、推論性能と較正を同時に最適化する訓練目標として認識論的較正推論(EpiCaR)を提案し、明示的自己評価信号を用いた反復的教師ありファインチューニング枠組みにおいてこれを具現化する。Llama-3およびQwen-3ファミリを用いた実験により、本手法が精度と較正の両面で標準ベースラインをパレート改善すること、特に十分な推論能力を有するモデル(例:3B以上)で効果的であることを実証する。この枠組みはOOD数学推論(GSM8K)およびコード生成(MBPP)に対しても効果的に汎化する。最終的に、本アプローチにより推論時の計算量を3分の1に削減可能であり、能力の高いモデルではSTaRのK=30性能をK=10サンプルで達成できる。
English
Improving the reasoning abilities of large language models (LLMs) has largely relied on iterative self-training with model-generated data. While effective at boosting accuracy, existing approaches primarily reinforce successful reasoning paths, incurring a substantial calibration cost: models become overconfident and lose the ability to represent uncertainty. This failure has been characterized as a form of model collapse in alignment, where predictive distributions degenerate toward low-variance point estimates. We address this issue by reframing reasoning training as an epistemic learning problem, in which models must learn not only how to reason, but also when their reasoning should be trusted. We propose epistemically-calibrated reasoning (EpiCaR) as a training objective that jointly optimizes reasoning performance and calibration, and instantiate it within an iterative supervised fine-tuning framework using explicit self-evaluation signals. Experiments on Llama-3 and Qwen-3 families demonstrate that our approach achieves Pareto-superiority over standard baselines in both accuracy and calibration, particularly in models with sufficient reasoning capacity (e.g., 3B+). This framework generalizes effectively to OOD mathematical reasoning (GSM8K) and code generation (MBPP). Ultimately, our approach enables a 3X reduction in inference compute, matching the K=30 performance of STaR with only K=10 samples in capable models.
PDF51January 15, 2026