EpiCaR: Saber o que Você Não Sabe Importa para um Raciocínio Melhor em LLMs

Resumo

A melhoria das capacidades de raciocínio de modelos de linguagem de grande escala (LLMs) tem dependido amplamente do autoaprendizado iterativo com dados gerados pelo próprio modelo. Embora eficazes para aumentar a precisão, as abordagens existentes reforçam principalmente os caminhos de raciocínio bem-sucedidos, incorrendo num custo substancial de calibração: os modelos tornam-se excessivamente confiantes e perdem a capacidade de representar a incerteza. Esta falha foi caracterizada como uma forma de colapso do modelo no alinhamento, em que as distribuições preditivas degeneram em direção a estimativas pontuais de baixa variância. Nós abordamos esta questão reformulando o treino de raciocínio como um problema de aprendizagem epistémica, no qual os modelos devem aprender não apenas a raciocinar, mas também quando o seu raciocínio deve ser confiável. Propomos o raciocínio epistemicamente calibrado (EpiCaR) como um objetivo de treino que otimiza conjuntamente o desempenho do raciocínio e a calibração, e instanciamo-lo num quadro de *fine-tuning* supervisionado iterativo usando sinais explícitos de autoavaliação. Experiências nas famílias Llama-3 e Qwen-3 demonstram que a nossa abordagem alcança uma superioridade de Pareto sobre as linhas de base padrão, tanto em precisão como em calibração, particularmente em modelos com capacidade de raciocínio suficiente (ex: 3B+). Este quadro generaliza-se eficazmente para raciocínio matemático fora da distribuição (GSM8K) e geração de código (MBPP). No final, a nossa abordagem permite uma redução de 3X no cálculo de inferência, igualando o desempenho K=30 do STaR com apenas K=10 amostras em modelos capazes.

English

Improving the reasoning abilities of large language models (LLMs) has largely relied on iterative self-training with model-generated data. While effective at boosting accuracy, existing approaches primarily reinforce successful reasoning paths, incurring a substantial calibration cost: models become overconfident and lose the ability to represent uncertainty. This failure has been characterized as a form of model collapse in alignment, where predictive distributions degenerate toward low-variance point estimates. We address this issue by reframing reasoning training as an epistemic learning problem, in which models must learn not only how to reason, but also when their reasoning should be trusted. We propose epistemically-calibrated reasoning (EpiCaR) as a training objective that jointly optimizes reasoning performance and calibration, and instantiate it within an iterative supervised fine-tuning framework using explicit self-evaluation signals. Experiments on Llama-3 and Qwen-3 families demonstrate that our approach achieves Pareto-superiority over standard baselines in both accuracy and calibration, particularly in models with sufficient reasoning capacity (e.g., 3B+). This framework generalizes effectively to OOD mathematical reasoning (GSM8K) and code generation (MBPP). Ultimately, our approach enables a 3X reduction in inference compute, matching the K=30 performance of STaR with only K=10 samples in capable models.

EpiCaR: Saber o que Você Não Sabe Importa para um Raciocínio Melhor em LLMs

EpiCaR: Knowing What You Don't Know Matters for Better Reasoning in LLMs

Resumo

Support