Omgekeerd Geredeneerd Redeneren voor Open-Einde Generatie
Reverse-Engineered Reasoning for Open-Ended Generation
September 7, 2025
Auteurs: Haozhe Wang, Haoran Que, Qixin Xu, Minghao Liu, Wangchunshu Zhou, Jiazhan Feng, Wanjun Zhong, Wei Ye, Tong Yang, Wenhao Huang, Ge Zhang, Fangzhen Lin
cs.AI
Samenvatting
Hoewel het "diep redeneren"-paradigma aanzienlijke vooruitgang heeft geboekt in verifieerbare domeinen zoals wiskunde, blijft de toepassing ervan op open-einde, creatieve generatie een kritieke uitdaging. De twee dominante methoden om redeneren te bevorderen – reinforcement learning (RL) en instructiedistillatie – falen op dit gebied; RL worstelt met het ontbreken van duidelijke beloningssignalen en hoogwaardige beloningsmodellen, terwijl distillatie buitensporig duur is en beperkt wordt door de capaciteiten van het leraarmodel. Om deze beperkingen te overwinnen, introduceren we REverse-Engineered Reasoning (REER), een nieuw paradigma dat de aanpak fundamenteel verandert. In plaats van een redeneerproces "voorwaarts" op te bouwen via trial-and-error of imitatie, werkt REER "achterwaarts" vanuit bekende goede oplossingen om het latente, stapsgewijze diepe redeneerproces dat deze zou kunnen hebben geproduceerd, computationeel te ontdekken. Met deze schaalbare, gradient-vrije aanpak cureren en openbaren we DeepWriting-20K, een grootschalige dataset van 20.000 diepe redeneertrajecten voor open-einde taken. Ons model, DeepWriter-8B, getraind op deze data, overtreft niet alleen sterke open-source baselines, maar presteert ook concurrerend met, en soms zelfs beter dan, toonaangevende propriëtaire modellen zoals GPT-4o en Claude 3.5.
English
While the ``deep reasoning'' paradigm has spurred significant advances in
verifiable domains like mathematics, its application to open-ended, creative
generation remains a critical challenge. The two dominant methods for
instilling reasoning -- reinforcement learning (RL) and instruction
distillation -- falter in this area; RL struggles with the absence of clear
reward signals and high-quality reward models, while distillation is
prohibitively expensive and capped by the teacher model's capabilities. To
overcome these limitations, we introduce REverse-Engineered Reasoning (REER), a
new paradigm that fundamentally shifts the approach. Instead of building a
reasoning process ``forwards'' through trial-and-error or imitation, REER works
``backwards'' from known-good solutions to computationally discover the latent,
step-by-step deep reasoning process that could have produced them. Using this
scalable, gradient-free approach, we curate and open-source DeepWriting-20K, a
large-scale dataset of 20,000 deep reasoning trajectories for open-ended tasks.
Our model, DeepWriter-8B, trained on this data, not only surpasses strong
open-source baselines but also achieves performance competitive with, and at
times superior to, leading proprietary models like GPT-4o and Claude 3.5.