Dal Didattico al Costruttivo: Trasformare le Soluzioni Esperte in Ragionamenti Apprendibili

Abstract

Il miglioramento delle capacità di ragionamento dei grandi modelli linguistici (LLM) si basa tipicamente sulla capacità del modello di campionare una soluzione corretta da rinforzare o sull'esistenza di un modello più forte in grado di risolvere il problema. Tuttavia, molti problemi complessi rimangono intrattabili anche per i modelli all'avanguardia attuali, impedendo l'estrazione di segnali di addestramento validi. Un'alternativa promettente è sfruttare soluzioni umane esperte di alta qualità, ma l'imitazione ingenua di questi dati fallisce perché è fondamentalmente fuori distribuzione: le soluzioni esperte sono tipicamente didattiche e contengono lacune di ragionamento implicite pensate per lettori umani piuttosto che per modelli computazionali. Inoltre, le soluzioni esperte di alta qualità sono costose, rendendo necessari metodi di addestramento efficienti dal punto di vista del campionamento e generalizzabili. Proponiamo la Distribuzione Aligned Imitation Learning (DAIL), un metodo in due fasi che colma il divario distribuzionale trasformando prima le soluzioni esperte in tracce di ragionamento dettagliate e in-distribuzione, per poi applicare un obiettivo contrastivo per concentrare l'apprendimento sulle intuizioni e le metodologie esperte. Troviamo che DAIL possa sfruttare meno di 1000 soluzioni esperte di alta qualità per ottenere guadagni del 10-25% in pass@k sui modelli Qwen2.5-Instruct e Qwen3, migliorare l'efficienza del ragionamento da 2 a 4 volte e abilitare la generalizzazione fuori dominio.

English

Improving the reasoning capabilities of large language models (LLMs) typically relies either on the model's ability to sample a correct solution to be reinforced or on the existence of a stronger model able to solve the problem. However, many difficult problems remain intractable for even current frontier models, preventing the extraction of valid training signals. A promising alternative is to leverage high-quality expert human solutions, yet naive imitation of this data fails because it is fundamentally out of distribution: expert solutions are typically didactic, containing implicit reasoning gaps intended for human readers rather than computational models. Furthermore, high-quality expert solutions are expensive, necessitating generalizable sample-efficient training methods. We propose Distribution Aligned Imitation Learning (DAIL), a two-step method that bridges the distributional gap by first transforming expert solutions into detailed, in-distribution reasoning traces and then applying a contrastive objective to focus learning on expert insights and methodologies. We find that DAIL can leverage fewer than 1000 high-quality expert solutions to achieve 10-25% pass@k gains on Qwen2.5-Instruct and Qwen3 models, improve reasoning efficiency by 2x to 4x, and enable out-of-domain generalization.

Dal Didattico al Costruttivo: Trasformare le Soluzioni Esperte in Ragionamenti Apprendibili

Didactic to Constructive: Turning Expert Solutions into Learnable Reasoning

Abstract

Support