От дидактики к конструктивному подходу: преобразование экспертных решений в доступные для обучения рассуждения
Didactic to Constructive: Turning Expert Solutions into Learnable Reasoning
February 2, 2026
Авторы: Ethan Mendes, Jungsoo Park, Alan Ritter
cs.AI
Аннотация
Повышение способностей к рассуждению у больших языковых моделей (LLM) обычно зависит либо от возможности модели сэмплировать правильное решение для последующего усиления, либо от наличия более мощной модели, способной решить задачу. Однако многие сложные проблемы остаются неразрешимыми даже для современных передовых моделей, что препятствует извлечению достоверных обучающих сигналов. Многообещающей альтернативой является использование высококачественных решений экспертов-людей, но простое имитирование этих данных не работает, поскольку они по своей природе лежат вне распределения: экспертные решения обычно носят дидактический характер и содержат неявные логические пропуски, предназначенные для человеческого восприятия, а не для вычислительных моделей. Кроме того, высококачественные экспертные решения дороги, что требует обобщающих методов обучения с высокой эффективностью использования данных. Мы предлагаем Обучение с имитацией и выравниванием распределения (Distribution Aligned Imitation Learning, DAIL) — двухэтапный метод, который преодолевает разрыв в распределении, сначала преобразуя экспертные решения в детальные, соответствующие распределению цепочки рассуждений, а затем применяя контрастную цель для фокусировки обучения на экспертных инсайтах и методологиях. Мы обнаружили, что DAIL позволяет использовать менее 1000 высококачественных экспертных решений для достижения прироста в 10-25% по метрике pass@k для моделей Qwen2.5-Instruct и Qwen3, повысить эффективность рассуждений в 2–4 раза и обеспечить обобщение за пределами домена.
English
Improving the reasoning capabilities of large language models (LLMs) typically relies either on the model's ability to sample a correct solution to be reinforced or on the existence of a stronger model able to solve the problem. However, many difficult problems remain intractable for even current frontier models, preventing the extraction of valid training signals. A promising alternative is to leverage high-quality expert human solutions, yet naive imitation of this data fails because it is fundamentally out of distribution: expert solutions are typically didactic, containing implicit reasoning gaps intended for human readers rather than computational models. Furthermore, high-quality expert solutions are expensive, necessitating generalizable sample-efficient training methods. We propose Distribution Aligned Imitation Learning (DAIL), a two-step method that bridges the distributional gap by first transforming expert solutions into detailed, in-distribution reasoning traces and then applying a contrastive objective to focus learning on expert insights and methodologies. We find that DAIL can leverage fewer than 1000 high-quality expert solutions to achieve 10-25% pass@k gains on Qwen2.5-Instruct and Qwen3 models, improve reasoning efficiency by 2x to 4x, and enable out-of-domain generalization.