EpiCaR: Sapere Cosa Non Sai è Importante per un Ragionamento Migliore nei LLM

Abstract

Il miglioramento delle capacità di ragionamento dei grandi modelli linguistici (LLM) si è basato in larga misura sull'auto-addestramento iterativo con dati generati dal modello stesso. Sebbene efficaci nel potenziare l'accuratezza, gli approcci esistenti rafforzano principalmente i percorsi di ragionamento vincenti, comportando un costo sostanziale di calibrazione: i modelli diventano sovracconfidenti e perdono la capacità di rappresentare l'incertezza. Questo fallimento è stato caratterizzato come una forma di collasso del modello nell'allineamento, in cui le distribuzioni predittive degenerano verso stime puntuali a bassa varianza. Affrontiamo questo problema ridefinendo l'addestramento al ragionamento come un problema di apprendimento epistemico, in cui i modelli devono apprendere non solo come ragionare, ma anche quando il loro ragionamento dovrebbe essere considerato affidabile. Proponiamo il ragionamento epistemicamente calibrato (EpiCaR) come obiettivo di addestramento che ottimizza congiuntamente le prestazioni di ragionamento e la calibrazione, e lo istanziamo all'interno di un framework di fine-tuning supervisionato iterativo utilizzando segnali espliciti di autovalutazione. Esperimenti sulle famiglie Llama-3 e Qwen-3 dimostrano che il nostro approccio raggiunge una Pareto-superiorità rispetto ai baseline standard sia in accuratezza che in calibrazione, specialmente in modelli con sufficiente capacità di ragionamento (es. 3B+). Questo framework generalizza efficacemente al ragionamento matematico fuori distribuzione (GSM8K) e alla generazione di codice (MBPP). In definitiva, il nostro approccio consente una riduzione di 3 volte del compute di inferenza, eguagliando le prestazioni con K=30 campioni di STaR con soli K=10 campini in modelli capaci.

English

Improving the reasoning abilities of large language models (LLMs) has largely relied on iterative self-training with model-generated data. While effective at boosting accuracy, existing approaches primarily reinforce successful reasoning paths, incurring a substantial calibration cost: models become overconfident and lose the ability to represent uncertainty. This failure has been characterized as a form of model collapse in alignment, where predictive distributions degenerate toward low-variance point estimates. We address this issue by reframing reasoning training as an epistemic learning problem, in which models must learn not only how to reason, but also when their reasoning should be trusted. We propose epistemically-calibrated reasoning (EpiCaR) as a training objective that jointly optimizes reasoning performance and calibration, and instantiate it within an iterative supervised fine-tuning framework using explicit self-evaluation signals. Experiments on Llama-3 and Qwen-3 families demonstrate that our approach achieves Pareto-superiority over standard baselines in both accuracy and calibration, particularly in models with sufficient reasoning capacity (e.g., 3B+). This framework generalizes effectively to OOD mathematical reasoning (GSM8K) and code generation (MBPP). Ultimately, our approach enables a 3X reduction in inference compute, matching the K=30 performance of STaR with only K=10 samples in capable models.

EpiCaR: Sapere Cosa Non Sai è Importante per un Ragionamento Migliore nei LLM

EpiCaR: Knowing What You Don't Know Matters for Better Reasoning in LLMs

Abstract

Support