ChatPaper.aiChatPaper

EpiCaR: Осознание неизвестного как ключевой фактор улучшения способности к рассуждению в больших языковых моделях

EpiCaR: Knowing What You Don't Know Matters for Better Reasoning in LLMs

January 11, 2026
Авторы: Jewon Yeom, Jaewon Sok, Seonghyeon Park, Jeongjae Park, Taesup Kim
cs.AI

Аннотация

Повышение способностей крупных языковых моделей (LLM) к логическим рассуждениям в значительной степени опиралось на итеративное самообучение с данными, сгенерированными моделью. Хотя существующие подходы эффективно повышают точность, они в основном подкрепляют успешные пути рассуждений, что влечет за собой существенные затраты на калибровку: модели становятся излишне уверенными и теряют способность представлять неопределенность. Этот сбой был охарактеризован как форма коллапса модели при согласовании, когда прогностические распределения вырождаются в сторону точечных оценок с низкой дисперсией. Мы решаем эту проблему, переосмысливая обучение рассуждениям как эпистемическую задачу обучения, в которой модели должны научиться не только тому, *как* рассуждать, но и тому, *когда* их рассуждениям можно доверять. Мы предлагаем эпистемически-калиброванные рассуждения (EpiCaR) в качестве целевой функции обучения, которая совместно оптимизирует производительность рассуждений и калибровку, и реализуем ее в рамках итеративной процедуры контролируемой тонкой настройки с использованием явных сигналов самооценки. Эксперименты на семействах моделей Llama-3 и Qwen-3 демонстрируют, что наш подход достигает парето-превосходства над стандартными базовыми методами как по точности, так и по калибровке, особенно в моделях с достаточной способностью к рассуждениям (например, 3B+). Данная框架 эффективно обобщается на математические рассуждения вне распределения (GSM8K) и генерацию кода (MBPP). В конечном счете, наш подход позволяет в 3 раза сократить вычислительные затраты на вывод, достигая производительности STaR при K=30 всего с K=10 сэмплами в достаточно мощных моделях.
English
Improving the reasoning abilities of large language models (LLMs) has largely relied on iterative self-training with model-generated data. While effective at boosting accuracy, existing approaches primarily reinforce successful reasoning paths, incurring a substantial calibration cost: models become overconfident and lose the ability to represent uncertainty. This failure has been characterized as a form of model collapse in alignment, where predictive distributions degenerate toward low-variance point estimates. We address this issue by reframing reasoning training as an epistemic learning problem, in which models must learn not only how to reason, but also when their reasoning should be trusted. We propose epistemically-calibrated reasoning (EpiCaR) as a training objective that jointly optimizes reasoning performance and calibration, and instantiate it within an iterative supervised fine-tuning framework using explicit self-evaluation signals. Experiments on Llama-3 and Qwen-3 families demonstrate that our approach achieves Pareto-superiority over standard baselines in both accuracy and calibration, particularly in models with sufficient reasoning capacity (e.g., 3B+). This framework generalizes effectively to OOD mathematical reasoning (GSM8K) and code generation (MBPP). Ultimately, our approach enables a 3X reduction in inference compute, matching the K=30 performance of STaR with only K=10 samples in capable models.
PDF51January 15, 2026