개방형 생성을 위한 역설계 기반 추론
Reverse-Engineered Reasoning for Open-Ended Generation
September 7, 2025
저자: Haozhe Wang, Haoran Que, Qixin Xu, Minghao Liu, Wangchunshu Zhou, Jiazhan Feng, Wanjun Zhong, Wei Ye, Tong Yang, Wenhao Huang, Ge Zhang, Fangzhen Lin
cs.AI
초록
"심층 추론" 패러다임은 수학과 같은 검증 가능한 영역에서 상당한 진전을 이끌어냈지만, 개방형 창의적 생성 작업에의 적용은 여전히 중요한 과제로 남아 있습니다. 추론 능력을 부여하기 위한 두 가지 주요 방법인 강화 학습(RL)과 지시 증류는 이 분야에서 한계를 보입니다. RL은 명확한 보상 신호와 고품질 보상 모델의 부재로 어려움을 겪는 반면, 증류 방식은 비용이 과도하게 높고 교사 모델의 능력에 의해 제한됩니다. 이러한 한계를 극복하기 위해, 우리는 REverse-Engineered Reasoning(REER)이라는 새로운 패러다임을 소개합니다. REER은 시행착오나 모방을 통해 추론 과정을 "순방향"으로 구축하는 대신, 알려진 우수한 솔루션에서 출발하여 이를 생성할 수 있었던 잠재적 단계별 심층 추론 과정을 계산적으로 발견하는 "역방향" 접근법을 취합니다. 이 확장 가능한 경사 없음(gradient-free) 방식을 활용하여, 우리는 개방형 작업을 위한 20,000개의 심층 추론 궤적을 포함한 대규모 데이터셋인 DeepWriting-20K를 구축 및 공개했습니다. 이 데이터로 학습된 우리의 모델인 DeepWriter-8B는 강력한 오픈소스 기반 모델을 능가할 뿐만 아니라, GPT-4o 및 Claude 3.5와 같은 선도적인 독점 모델과 경쟁적이며 때로는 더 우수한 성능을 보여줍니다.
English
While the ``deep reasoning'' paradigm has spurred significant advances in
verifiable domains like mathematics, its application to open-ended, creative
generation remains a critical challenge. The two dominant methods for
instilling reasoning -- reinforcement learning (RL) and instruction
distillation -- falter in this area; RL struggles with the absence of clear
reward signals and high-quality reward models, while distillation is
prohibitively expensive and capped by the teacher model's capabilities. To
overcome these limitations, we introduce REverse-Engineered Reasoning (REER), a
new paradigm that fundamentally shifts the approach. Instead of building a
reasoning process ``forwards'' through trial-and-error or imitation, REER works
``backwards'' from known-good solutions to computationally discover the latent,
step-by-step deep reasoning process that could have produced them. Using this
scalable, gradient-free approach, we curate and open-source DeepWriting-20K, a
large-scale dataset of 20,000 deep reasoning trajectories for open-ended tasks.
Our model, DeepWriter-8B, trained on this data, not only surpasses strong
open-source baselines but also achieves performance competitive with, and at
times superior to, leading proprietary models like GPT-4o and Claude 3.5.