Ragionamento Inverso per la Generazione Aperta
Reverse-Engineered Reasoning for Open-Ended Generation
September 7, 2025
Autori: Haozhe Wang, Haoran Que, Qixin Xu, Minghao Liu, Wangchunshu Zhou, Jiazhan Feng, Wanjun Zhong, Wei Ye, Tong Yang, Wenhao Huang, Ge Zhang, Fangzhen Lin
cs.AI
Abstract
Mentre il paradigma del "ragionamento profondo" ha stimolato progressi significativi in domini verificabili come la matematica, la sua applicazione alla generazione aperta e creativa rimane una sfida cruciale. I due metodi dominanti per instillare il ragionamento — l'apprendimento per rinforzo (RL) e la distillazione di istruzioni — mostrano limiti in questo ambito; l'RL fatica a causa dell'assenza di segnali di ricompensa chiari e di modelli di ricompensa di alta qualità, mentre la distillazione è proibitivamente costosa e limitata dalle capacità del modello insegnante. Per superare queste limitazioni, introduciamo il REverse-Engineered Reasoning (REER), un nuovo paradigma che cambia radicalmente l'approccio. Invece di costruire un processo di ragionamento "in avanti" attraverso tentativi ed errori o imitazione, il REER opera "all'indietro" partendo da soluzioni note per scoprire computazionalmente il processo latente di ragionamento profondo passo-passo che avrebbe potuto produrle. Utilizzando questo approccio scalabile e privo di gradienti, abbiamo curato e reso disponibile DeepWriting-20K, un dataset su larga scala di 20.000 traiettorie di ragionamento profondo per compiti aperti. Il nostro modello, DeepWriter-8B, addestrato su questi dati, non solo supera solidi benchmark open-source, ma raggiunge prestazioni competitive e, in alcuni casi, superiori a modelli proprietari leader come GPT-4o e Claude 3.5.
English
While the ``deep reasoning'' paradigm has spurred significant advances in
verifiable domains like mathematics, its application to open-ended, creative
generation remains a critical challenge. The two dominant methods for
instilling reasoning -- reinforcement learning (RL) and instruction
distillation -- falter in this area; RL struggles with the absence of clear
reward signals and high-quality reward models, while distillation is
prohibitively expensive and capped by the teacher model's capabilities. To
overcome these limitations, we introduce REverse-Engineered Reasoning (REER), a
new paradigm that fundamentally shifts the approach. Instead of building a
reasoning process ``forwards'' through trial-and-error or imitation, REER works
``backwards'' from known-good solutions to computationally discover the latent,
step-by-step deep reasoning process that could have produced them. Using this
scalable, gradient-free approach, we curate and open-source DeepWriting-20K, a
large-scale dataset of 20,000 deep reasoning trajectories for open-ended tasks.
Our model, DeepWriter-8B, trained on this data, not only surpasses strong
open-source baselines but also achieves performance competitive with, and at
times superior to, leading proprietary models like GPT-4o and Claude 3.5.