교훈적 접근에서 구성적 접근으로: 전문가 솔루션을 학습 가능한 추론으로 전환하기
Didactic to Constructive: Turning Expert Solutions into Learnable Reasoning
February 2, 2026
저자: Ethan Mendes, Jungsoo Park, Alan Ritter
cs.AI
초록
대규모 언어 모델(LLM)의 추론 능력 향상은 일반적으로 모델이 강화될 올바른 해결책을 샘플링할 수 있는 능력이나 문제를 해결할 수 있는 더 강력한 모델의 존재에 의존합니다. 그러나 많은 어려운 문제들은 현재 최첨단 모델들에게도 여전히 풀기 어려워 유효한 훈련 신호를 추출하는 것을 방해합니다. 유망한 대안은 고품질의 전문가 수준의 인간 해결책을 활용하는 것이지만, 이러한 데이터를 단순히 모방하는 것은 근본적으로 분포를 벗어나기 때문에 실패합니다. 전문가 해결책은 일반적으로 교육적이며, 컴퓨팅 모델이 아닌 인간 독자를 위해 의도된 암묵적인 추론 간극을 포함하기 때문입니다. 더욱이 고품질의 전문가 해결책은 비용이 많이 들어 일반화 가능하고 샘플 효율적인 훈련 방법이 필요합니다. 우리는 분포 차이를 해소하는 두 단계 방법인 분포 정렬 모방 학습(DAIL)을 제안합니다. 이 방법은 먼저 전문가 해결책을 세부적이고 분포 내 추론 흔적으로 변환한 다음, 대조적 목적 함수를 적용하여 전문가의 통찰력과 방법론에 학습을 집중시킵니다. 우리는 DAIL이 1000개 미만의 고품질 전문가 해결책을 활용하여 Qwen2.5-Instruct 및 Qwen3 모델에서 10-25%의 pass@k 향상을 달성하고, 추론 효율을 2배에서 4배까지 개선하며, 도메인 외 일반화를 가능하게 한다는 것을 발견했습니다.
English
Improving the reasoning capabilities of large language models (LLMs) typically relies either on the model's ability to sample a correct solution to be reinforced or on the existence of a stronger model able to solve the problem. However, many difficult problems remain intractable for even current frontier models, preventing the extraction of valid training signals. A promising alternative is to leverage high-quality expert human solutions, yet naive imitation of this data fails because it is fundamentally out of distribution: expert solutions are typically didactic, containing implicit reasoning gaps intended for human readers rather than computational models. Furthermore, high-quality expert solutions are expensive, necessitating generalizable sample-efficient training methods. We propose Distribution Aligned Imitation Learning (DAIL), a two-step method that bridges the distributional gap by first transforming expert solutions into detailed, in-distribution reasoning traces and then applying a contrastive objective to focus learning on expert insights and methodologies. We find that DAIL can leverage fewer than 1000 high-quality expert solutions to achieve 10-25% pass@k gains on Qwen2.5-Instruct and Qwen3 models, improve reasoning efficiency by 2x to 4x, and enable out-of-domain generalization.