Du didactique au constructif : transformer les solutions expertes en raisonnements apprenables
Didactic to Constructive: Turning Expert Solutions into Learnable Reasoning
February 2, 2026
papers.authors: Ethan Mendes, Jungsoo Park, Alan Ritter
cs.AI
papers.abstract
L'amélioration des capacités de raisonnement des grands modèles de langage (LLM) repose généralement soit sur la capacité du modèle à échantillonner une solution correcte à renforcer, soit sur l'existence d'un modèle plus puissant capable de résoudre le problème. Cependant, de nombreux problèmes difficiles restent insolubles, même pour les modèles les plus avancés actuels, empêchant l'extraction de signaux d'apprentissage valides. Une alternative prometteuse consiste à exploiter des solutions humaines expertes de haute qualité, mais l'imitation naïve de ces données échoue car elle est fondamentalement hors distribution : les solutions expertes sont généralement didactiques, contenant des lacunes de raisonnement implicites destinées à des lecteurs humains plutôt qu'à des modèles computationnels. De plus, les solutions expertes de haute qualité sont coûteuses, nécessitant des méthodes d'apprentissage généralisables et efficaces en échantillons. Nous proposons l'Apprentissage par Imitation à Distribution Alignée (DAIL), une méthode en deux étapes qui comble l'écart distributionnel en transformant d'abord les solutions expertes en traces de raisonnement détaillées et dans la distribution, puis en appliquant un objectif contrastif pour concentrer l'apprentissage sur les insights et les méthodologies experts. Nous constatons que DAIL peut exploiter moins de 1000 solutions expertes de haute qualité pour obtenir des gains de 10 à 25 % en pass@k sur les modèles Qwen2.5-Instruct et Qwen3, améliorer l'efficacité du raisonnement d'un facteur 2 à 4, et permettre une généralisation hors domaine.
English
Improving the reasoning capabilities of large language models (LLMs) typically relies either on the model's ability to sample a correct solution to be reinforced or on the existence of a stronger model able to solve the problem. However, many difficult problems remain intractable for even current frontier models, preventing the extraction of valid training signals. A promising alternative is to leverage high-quality expert human solutions, yet naive imitation of this data fails because it is fundamentally out of distribution: expert solutions are typically didactic, containing implicit reasoning gaps intended for human readers rather than computational models. Furthermore, high-quality expert solutions are expensive, necessitating generalizable sample-efficient training methods. We propose Distribution Aligned Imitation Learning (DAIL), a two-step method that bridges the distributional gap by first transforming expert solutions into detailed, in-distribution reasoning traces and then applying a contrastive objective to focus learning on expert insights and methodologies. We find that DAIL can leverage fewer than 1000 high-quality expert solutions to achieve 10-25% pass@k gains on Qwen2.5-Instruct and Qwen3 models, improve reasoning efficiency by 2x to 4x, and enable out-of-domain generalization.