Van Didactisch naar Constructief: Expertoplossingen Omzetten in Leerbaar Redeneren

Samenvatting

Het verbeteren van de redeneercapaciteiten van grote taalmodellen (LLM's) berust doorgaans op het vermogen van het model om een correcte oplossing te bemonsteren die kan worden versterkt, of op het bestaan van een sterker model dat het probleem kan oplossen. Voor veel moeilijke problemen blijven echter zelfs de huidige frontiermodellen ontoereikend, wat het verkrijgen van valide trainingsignalen verhindert. Een veelbelovend alternatief is het benutten van hoogwaardige expertoplossingen van mensen, maar een naïeve imitatie van deze data faalt omdat deze fundamenteel buiten de distributie valt: expertoplossingen zijn doorgaans didactisch van aard en bevatten impliciete redeneerhiaten die bedoeld zijn voor menselijke lezers in plaats van computationele modellen. Bovendien zijn hoogwaardige expertoplossingen kostbaar, wat generaliseerbare, sample-efficiënte trainingsmethoden noodzakelijk maakt. Wij stellen Distribution Aligned Imitation Learning (DAIL) voor, een tweestapsmethode die de distributionele kloof overbrugt door eerst expertoplossingen om te zetten in gedetailleerde, binnen-de-distributie vallende redeneersporen en vervolgens een contrastief doel toe te passen om het leren te richten op expertinzichten en -methodologieën. Wij constateren dat DAIL met minder dan 1000 hoogwaardige expertoplossingen pass@k-winsten van 10-25% kan bereiken op Qwen2.5-Instruct- en Qwen3-modellen, de redeneerefficiëntie met 2x tot 4x kan verbeteren en generalisatie buiten het domein mogelijk maakt.

English

Improving the reasoning capabilities of large language models (LLMs) typically relies either on the model's ability to sample a correct solution to be reinforced or on the existence of a stronger model able to solve the problem. However, many difficult problems remain intractable for even current frontier models, preventing the extraction of valid training signals. A promising alternative is to leverage high-quality expert human solutions, yet naive imitation of this data fails because it is fundamentally out of distribution: expert solutions are typically didactic, containing implicit reasoning gaps intended for human readers rather than computational models. Furthermore, high-quality expert solutions are expensive, necessitating generalizable sample-efficient training methods. We propose Distribution Aligned Imitation Learning (DAIL), a two-step method that bridges the distributional gap by first transforming expert solutions into detailed, in-distribution reasoning traces and then applying a contrastive objective to focus learning on expert insights and methodologies. We find that DAIL can leverage fewer than 1000 high-quality expert solutions to achieve 10-25% pass@k gains on Qwen2.5-Instruct and Qwen3 models, improve reasoning efficiency by 2x to 4x, and enable out-of-domain generalization.

Van Didactisch naar Constructief: Expertoplossingen Omzetten in Leerbaar Redeneren

Didactic to Constructive: Turning Expert Solutions into Learnable Reasoning

Samenvatting

Support