EpiCaR: Saber lo que no sabes importa para un mejor razonamiento en los LLM
EpiCaR: Knowing What You Don't Know Matters for Better Reasoning in LLMs
January 11, 2026
Autores: Jewon Yeom, Jaewon Sok, Seonghyeon Park, Jeongjae Park, Taesup Kim
cs.AI
Resumen
La mejora de las capacidades de razonamiento de los grandes modelos de lenguaje (LLM) se ha basado en gran medida en el autoentrenamiento iterativo con datos generados por el modelo. Aunque son eficaces para aumentar la precisión, los enfoques existentes refuerzan principalmente las trayectorias de razonamiento exitosas, incurriendo en un coste sustancial de calibración: los modelos se vuelven excesivamente confiados y pierden la capacidad de representar la incertidumbre. Este fallo se ha caracterizado como una forma de colapso del modelo en la alineación, donde las distribuciones predictivas degeneran hacia estimaciones puntuales de baja varianza. Abordamos este problema replanteando el entrenamiento del razonamiento como un problema de aprendizaje epistémico, en el que los modelos deben aprender no solo a razonar, sino también cuándo se debe confiar en su razonamiento. Proponemos el razonamiento con calibración epistémica (EpiCaR) como un objetivo de entrenamiento que optimiza conjuntamente el rendimiento del razonamiento y la calibración, y lo instanciamos dentro de un marco de ajuste fino supervisado iterativo utilizando señales explícitas de autoevaluación. Los experimentos con las familias Llama-3 y Qwen-3 demuestran que nuestro enfoque logra una superioridad de Pareto sobre los métodos de referencia estándar tanto en precisión como en calibración, particularmente en modelos con capacidad de razonamiento suficiente (por ejemplo, 3B+). Este marco se generaliza eficazmente al razonamiento matemático fuera de distribución (GSM8K) y a la generación de código (MBPP). En última instancia, nuestro enfoque permite una reducción de 3 veces en el cómputo de inferencia, igualando el rendimiento con K=30 muestras de STaR con solo K=10 muestras en modelos capaces.
English
Improving the reasoning abilities of large language models (LLMs) has largely relied on iterative self-training with model-generated data. While effective at boosting accuracy, existing approaches primarily reinforce successful reasoning paths, incurring a substantial calibration cost: models become overconfident and lose the ability to represent uncertainty. This failure has been characterized as a form of model collapse in alignment, where predictive distributions degenerate toward low-variance point estimates. We address this issue by reframing reasoning training as an epistemic learning problem, in which models must learn not only how to reason, but also when their reasoning should be trusted. We propose epistemically-calibrated reasoning (EpiCaR) as a training objective that jointly optimizes reasoning performance and calibration, and instantiate it within an iterative supervised fine-tuning framework using explicit self-evaluation signals. Experiments on Llama-3 and Qwen-3 families demonstrate that our approach achieves Pareto-superiority over standard baselines in both accuracy and calibration, particularly in models with sufficient reasoning capacity (e.g., 3B+). This framework generalizes effectively to OOD mathematical reasoning (GSM8K) and code generation (MBPP). Ultimately, our approach enables a 3X reduction in inference compute, matching the K=30 performance of STaR with only K=10 samples in capable models.