ChatPaper.aiChatPaper

Razonamiento de Ingeniería Inversa para la Generación de Final Abierto

Reverse-Engineered Reasoning for Open-Ended Generation

September 7, 2025
Autores: Haozhe Wang, Haoran Que, Qixin Xu, Minghao Liu, Wangchunshu Zhou, Jiazhan Feng, Wanjun Zhong, Wei Ye, Tong Yang, Wenhao Huang, Ge Zhang, Fangzhen Lin
cs.AI

Resumen

Si bien el paradigma del "razonamiento profundo" ha impulsado avances significativos en dominios verificables como las matemáticas, su aplicación a la generación creativa y de final abierto sigue siendo un desafío crítico. Los dos métodos dominantes para inculcar razonamiento —el aprendizaje por refuerzo (RL) y la destilación de instrucciones— tropiezan en este ámbito; el RL lucha con la ausencia de señales de recompensa claras y modelos de recompensa de alta calidad, mientras que la destilación es prohibitivamente costosa y está limitada por las capacidades del modelo maestro. Para superar estas limitaciones, presentamos REverse-Engineered Reasoning (REER), un nuevo paradigma que cambia fundamentalmente el enfoque. En lugar de construir un proceso de razonamiento "hacia adelante" mediante prueba y error o imitación, REER funciona "hacia atrás" a partir de soluciones conocidas y buenas para descubrir computacionalmente el proceso latente de razonamiento profundo paso a paso que podría haberlas producido. Utilizando este enfoque escalable y libre de gradientes, hemos curado y publicado DeepWriting-20K, un conjunto de datos a gran escala de 20,000 trayectorias de razonamiento profundo para tareas de final abierto. Nuestro modelo, DeepWriter-8B, entrenado con estos datos, no solo supera a sólidos modelos de código abierto, sino que también logra un rendimiento competitivo y, en ocasiones, superior a modelos propietarios líderes como GPT-4o y Claude 3.5.
English
While the ``deep reasoning'' paradigm has spurred significant advances in verifiable domains like mathematics, its application to open-ended, creative generation remains a critical challenge. The two dominant methods for instilling reasoning -- reinforcement learning (RL) and instruction distillation -- falter in this area; RL struggles with the absence of clear reward signals and high-quality reward models, while distillation is prohibitively expensive and capped by the teacher model's capabilities. To overcome these limitations, we introduce REverse-Engineered Reasoning (REER), a new paradigm that fundamentally shifts the approach. Instead of building a reasoning process ``forwards'' through trial-and-error or imitation, REER works ``backwards'' from known-good solutions to computationally discover the latent, step-by-step deep reasoning process that could have produced them. Using this scalable, gradient-free approach, we curate and open-source DeepWriting-20K, a large-scale dataset of 20,000 deep reasoning trajectories for open-ended tasks. Our model, DeepWriter-8B, trained on this data, not only surpasses strong open-source baselines but also achieves performance competitive with, and at times superior to, leading proprietary models like GPT-4o and Claude 3.5.
PDF1385September 9, 2025