Von der Didaktik zur Konstruktion: Wie Expertenlösungen zu lernbaren Denkprozessen werden
Didactic to Constructive: Turning Expert Solutions into Learnable Reasoning
February 2, 2026
papers.authors: Ethan Mendes, Jungsoo Park, Alan Ritter
cs.AI
papers.abstract
Die Verbesserung der Reasoning-Fähigkeiten großer Sprachmodelle (LLMs) basiert typischerweise entweder auf der Fähigkeit des Modells, eine korrekte Lösung zu generieren, die verstärkt werden kann, oder auf der Existenz eines stärkeren Modells, das das Problem lösen kann. Viele schwierige Probleme bleiben jedoch selbst für aktuelle State-of-the-Art-Modelle unlösbar, was die Extraktion valider Trainingssignale verhindert. Eine vielversprechende Alternative ist die Nutzung hochwertiger menschlicher Expertenlösungen, doch die naive Nachahmung dieser Daten scheitert, da sie grundsätzlich außerhalb der Verteilung liegt: Expertenlösungen sind typischerweise didaktisch und enthalten implizite Denklücken, die für menschliche Leser und nicht für Computermodelle gedacht sind. Zudem sind hochwertige Expertenlösungen teuer, was generalisierbare, sample-effiziente Trainingsmethoden erfordert. Wir schlagen Distribution Aligned Imitation Learning (DAIL) vor, eine zweistufige Methode, die die Verteilungslücke überbrückt, indem sie zunächst Expertenlösungen in detaillierte, in-distribution Reasoning-Traces umwandelt und dann ein kontrastives Lernziel anwendet, um das Lernen auf die Erkenntnisse und Methoden der Experten zu fokussieren. Wir zeigen, dass DAIL mit weniger als 1000 hochwertigen Expertenlösungen Pass@k-Steigerungen von 10–25 % bei Qwen2.5-Instruct- und Qwen3-Modellen erreichen, die Reasoning-Effizienz um das 2- bis 4-fache verbessern und Out-of-Domain-Generalisierung ermöglichen kann.
English
Improving the reasoning capabilities of large language models (LLMs) typically relies either on the model's ability to sample a correct solution to be reinforced or on the existence of a stronger model able to solve the problem. However, many difficult problems remain intractable for even current frontier models, preventing the extraction of valid training signals. A promising alternative is to leverage high-quality expert human solutions, yet naive imitation of this data fails because it is fundamentally out of distribution: expert solutions are typically didactic, containing implicit reasoning gaps intended for human readers rather than computational models. Furthermore, high-quality expert solutions are expensive, necessitating generalizable sample-efficient training methods. We propose Distribution Aligned Imitation Learning (DAIL), a two-step method that bridges the distributional gap by first transforming expert solutions into detailed, in-distribution reasoning traces and then applying a contrastive objective to focus learning on expert insights and methodologies. We find that DAIL can leverage fewer than 1000 high-quality expert solutions to achieve 10-25% pass@k gains on Qwen2.5-Instruct and Qwen3 models, improve reasoning efficiency by 2x to 4x, and enable out-of-domain generalization.