Raciocínio de Engenharia Reversa para Geração de Final Aberto
Reverse-Engineered Reasoning for Open-Ended Generation
September 7, 2025
Autores: Haozhe Wang, Haoran Que, Qixin Xu, Minghao Liu, Wangchunshu Zhou, Jiazhan Feng, Wanjun Zhong, Wei Ye, Tong Yang, Wenhao Huang, Ge Zhang, Fangzhen Lin
cs.AI
Resumo
Embora o paradigma de "raciocínio profundo" tenha impulsionado avanços significativos em domínios verificáveis, como a matemática, sua aplicação à geração criativa e aberta permanece um desafio crítico. Os dois métodos dominantes para instilar raciocínio — aprendizado por reforço (RL) e destilação de instruções — enfrentam dificuldades nessa área; o RL luta com a ausência de sinais de recompensa claros e modelos de recompensa de alta qualidade, enquanto a destilação é proibitivamente cara e limitada pelas capacidades do modelo professor. Para superar essas limitações, introduzimos o Raciocínio de Engenharia Reversa (REER), um novo paradigma que muda fundamentalmente a abordagem. Em vez de construir um processo de raciocínio "para frente" por meio de tentativa e erro ou imitação, o REER funciona "para trás" a partir de soluções conhecidas e boas para descobrir computacionalmente o processo de raciocínio profundo, passo a passo, que poderia tê-las produzido. Usando essa abordagem escalável e livre de gradientes, curamos e disponibilizamos publicamente o DeepWriting-20K, um conjunto de dados em larga escala com 20.000 trajetórias de raciocínio profundo para tarefas abertas. Nosso modelo, DeepWriter-8B, treinado com esses dados, não apenas supera fortes baselines de código aberto, mas também alcança desempenho competitivo e, em alguns casos, superior a modelos proprietários líderes como GPT-4o e Claude 3.5.
English
While the ``deep reasoning'' paradigm has spurred significant advances in
verifiable domains like mathematics, its application to open-ended, creative
generation remains a critical challenge. The two dominant methods for
instilling reasoning -- reinforcement learning (RL) and instruction
distillation -- falter in this area; RL struggles with the absence of clear
reward signals and high-quality reward models, while distillation is
prohibitively expensive and capped by the teacher model's capabilities. To
overcome these limitations, we introduce REverse-Engineered Reasoning (REER), a
new paradigm that fundamentally shifts the approach. Instead of building a
reasoning process ``forwards'' through trial-and-error or imitation, REER works
``backwards'' from known-good solutions to computationally discover the latent,
step-by-step deep reasoning process that could have produced them. Using this
scalable, gradient-free approach, we curate and open-source DeepWriting-20K, a
large-scale dataset of 20,000 deep reasoning trajectories for open-ended tasks.
Our model, DeepWriter-8B, trained on this data, not only surpasses strong
open-source baselines but also achieves performance competitive with, and at
times superior to, leading proprietary models like GPT-4o and Claude 3.5.