ChatPaper.aiChatPaper

Del Didáctico al Constructivo: Transformando Soluciones Expertas en Razonamiento Aprendible

Didactic to Constructive: Turning Expert Solutions into Learnable Reasoning

February 2, 2026
Autores: Ethan Mendes, Jungsoo Park, Alan Ritter
cs.AI

Resumen

La mejora de las capacidades de razonamiento de los modelos de lenguaje grandes (LLM) generalmente depende de la habilidad del modelo para muestrear una solución correcta que pueda ser reforzada o de la existencia de un modelo más fuerte capaz de resolver el problema. Sin embargo, muchos problemas difíciles siguen siendo intratables incluso para los modelos de vanguardia actuales, lo que impide la extracción de señales de entrenamiento válidas. Una alternativa prometedora es aprovechar las soluciones humanas expertas de alta calidad, pero la imitación ingenua de estos datos fracasa porque son fundamentalmente fuera de distribución: las soluciones expertas suelen ser didácticas y contienen lagunas de razonamiento implícitas destinadas a lectores humanos y no a modelos computacionales. Además, las soluciones expertas de alta calidad son costosas, lo que exige métodos de entrenamiento eficientes en muestras y generalizables. Proponemos el Aprendizaje por Imitación con Alineación Distribucional (DAIL), un método de dos pasos que salva la brecha distribucional transformando primero las soluciones expertas en trazas de razonamiento detalladas y dentro de distribución, para luego aplicar un objetivo contrastivo que centre el aprendizaje en las perspectivas y metodologías expertas. Encontramos que DAIL puede aprovechar menos de 1000 soluciones expertas de alta calidad para lograr ganancias del 10-25% en pass@k en los modelos Qwen2.5-Instruct y Qwen3, mejorar la eficiencia del razonamiento entre 2x y 4x, y permitir la generalización fuera de dominio.
English
Improving the reasoning capabilities of large language models (LLMs) typically relies either on the model's ability to sample a correct solution to be reinforced or on the existence of a stronger model able to solve the problem. However, many difficult problems remain intractable for even current frontier models, preventing the extraction of valid training signals. A promising alternative is to leverage high-quality expert human solutions, yet naive imitation of this data fails because it is fundamentally out of distribution: expert solutions are typically didactic, containing implicit reasoning gaps intended for human readers rather than computational models. Furthermore, high-quality expert solutions are expensive, necessitating generalizable sample-efficient training methods. We propose Distribution Aligned Imitation Learning (DAIL), a two-step method that bridges the distributional gap by first transforming expert solutions into detailed, in-distribution reasoning traces and then applying a contrastive objective to focus learning on expert insights and methodologies. We find that DAIL can leverage fewer than 1000 high-quality expert solutions to achieve 10-25% pass@k gains on Qwen2.5-Instruct and Qwen3 models, improve reasoning efficiency by 2x to 4x, and enable out-of-domain generalization.
PDF11February 5, 2026