Do Didático ao Construtivo: Transformando Soluções de Especialistas em Raciocínio Aprendível

Resumo

A melhoria das capacidades de raciocínio de grandes modelos de linguagem (LLMs) normalmente depende da capacidade do modelo de amostrar uma solução correta para ser reforçada ou da existência de um modelo mais forte capaz de resolver o problema. No entanto, muitos problemas difíceis permanecem intratáveis mesmo para os modelos de fronteira atuais, impedindo a extração de sinais de treinamento válidos. Uma alternativa promissora é aproveitar soluções humanas especializadas de alta qualidade, mas a imitação ingênua desses dados falha porque está fundamentalmente fora da distribuição: as soluções especializadas são tipicamente didáticas, contendo lacunas de raciocínio implícitas destinadas a leitores humanos e não a modelos computacionais. Além disso, soluções especializadas de alta qualidade são caras, necessitando de métodos de treinamento generalizáveis e eficientes em amostras. Propomos o Aprendizado por Imitação com Alinhamento Distribucional (DAIL), um método em duas etapas que preenche a lacuna distribucional, primeiro transformando as soluções especializadas em traços de raciocínio detalhados e dentro da distribuição e, em seguida, aplicando um objetivo contrastivo para focar a aprendizagem nos insights e metodologias especializados. Verificamos que o DAIL pode aproveitar menos de 1000 soluções especializadas de alta qualidade para alcançar ganhos de 10-25% em pass@k nos modelos Qwen2.5-Instruct e Qwen3, melhorar a eficiência do raciocínio em 2x a 4x e permitir a generalização fora do domínio.

English

Improving the reasoning capabilities of large language models (LLMs) typically relies either on the model's ability to sample a correct solution to be reinforced or on the existence of a stronger model able to solve the problem. However, many difficult problems remain intractable for even current frontier models, preventing the extraction of valid training signals. A promising alternative is to leverage high-quality expert human solutions, yet naive imitation of this data fails because it is fundamentally out of distribution: expert solutions are typically didactic, containing implicit reasoning gaps intended for human readers rather than computational models. Furthermore, high-quality expert solutions are expensive, necessitating generalizable sample-efficient training methods. We propose Distribution Aligned Imitation Learning (DAIL), a two-step method that bridges the distributional gap by first transforming expert solutions into detailed, in-distribution reasoning traces and then applying a contrastive objective to focus learning on expert insights and methodologies. We find that DAIL can leverage fewer than 1000 high-quality expert solutions to achieve 10-25% pass@k gains on Qwen2.5-Instruct and Qwen3 models, improve reasoning efficiency by 2x to 4x, and enable out-of-domain generalization.

Do Didático ao Construtivo: Transformando Soluções de Especialistas em Raciocínio Aprendível

Didactic to Constructive: Turning Expert Solutions into Learnable Reasoning

Resumo

Support