ChatPaper.aiChatPaper

Omgekeerd Geredeneerd Redeneren voor Open-Einde Generatie

Reverse-Engineered Reasoning for Open-Ended Generation

September 7, 2025
Auteurs: Haozhe Wang, Haoran Que, Qixin Xu, Minghao Liu, Wangchunshu Zhou, Jiazhan Feng, Wanjun Zhong, Wei Ye, Tong Yang, Wenhao Huang, Ge Zhang, Fangzhen Lin
cs.AI

Samenvatting

Hoewel het "diep redeneren"-paradigma aanzienlijke vooruitgang heeft geboekt in verifieerbare domeinen zoals wiskunde, blijft de toepassing ervan op open-einde, creatieve generatie een kritieke uitdaging. De twee dominante methoden om redeneren te bevorderen – reinforcement learning (RL) en instructiedistillatie – falen op dit gebied; RL worstelt met het ontbreken van duidelijke beloningssignalen en hoogwaardige beloningsmodellen, terwijl distillatie buitensporig duur is en beperkt wordt door de capaciteiten van het leraarmodel. Om deze beperkingen te overwinnen, introduceren we REverse-Engineered Reasoning (REER), een nieuw paradigma dat de aanpak fundamenteel verandert. In plaats van een redeneerproces "voorwaarts" op te bouwen via trial-and-error of imitatie, werkt REER "achterwaarts" vanuit bekende goede oplossingen om het latente, stapsgewijze diepe redeneerproces dat deze zou kunnen hebben geproduceerd, computationeel te ontdekken. Met deze schaalbare, gradient-vrije aanpak cureren en openbaren we DeepWriting-20K, een grootschalige dataset van 20.000 diepe redeneertrajecten voor open-einde taken. Ons model, DeepWriter-8B, getraind op deze data, overtreft niet alleen sterke open-source baselines, maar presteert ook concurrerend met, en soms zelfs beter dan, toonaangevende propriëtaire modellen zoals GPT-4o en Claude 3.5.
English
While the ``deep reasoning'' paradigm has spurred significant advances in verifiable domains like mathematics, its application to open-ended, creative generation remains a critical challenge. The two dominant methods for instilling reasoning -- reinforcement learning (RL) and instruction distillation -- falter in this area; RL struggles with the absence of clear reward signals and high-quality reward models, while distillation is prohibitively expensive and capped by the teacher model's capabilities. To overcome these limitations, we introduce REverse-Engineered Reasoning (REER), a new paradigm that fundamentally shifts the approach. Instead of building a reasoning process ``forwards'' through trial-and-error or imitation, REER works ``backwards'' from known-good solutions to computationally discover the latent, step-by-step deep reasoning process that could have produced them. Using this scalable, gradient-free approach, we curate and open-source DeepWriting-20K, a large-scale dataset of 20,000 deep reasoning trajectories for open-ended tasks. Our model, DeepWriter-8B, trained on this data, not only surpasses strong open-source baselines but also achieves performance competitive with, and at times superior to, leading proprietary models like GPT-4o and Claude 3.5.
PDF1475September 9, 2025