SuperWriter: Generación de textos extensivos basada en reflexión con modelos de lenguaje a gran escala
SuperWriter: Reflection-Driven Long-Form Generation with Large Language Models
June 4, 2025
Autores: Yuhao Wu, Yushi Bai, Zhiqiang Hu, Juanzi Li, Roy Ka-Wei Lee
cs.AI
Resumen
La generación de textos extensos sigue siendo un desafío significativo para los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), particularmente en cuanto a mantener la coherencia, garantizar la consistencia lógica y preservar la calidad del texto a medida que aumenta la longitud de la secuencia. Para abordar estas limitaciones, proponemos SuperWriter-Agent, un marco basado en agentes diseñado para mejorar la calidad y consistencia de la generación de textos extensos. SuperWriter-Agent introduce etapas explícitas de pensamiento estructurado a través de la planificación y refinamiento en el proceso de generación, guiando al modelo para seguir un proceso más deliberado y cognitivamente fundamentado, similar al de un escritor profesional. Basándonos en este marco, construimos un conjunto de datos de ajuste fino supervisado para entrenar un SuperWriter-LM de 7B. Además, desarrollamos un procedimiento jerárquico de Optimización Directa de Preferencias (DPO, por sus siglas en inglés) que utiliza Búsqueda de Árbol de Monte Carlo (MCTS, por sus siglas en inglés) para propagar evaluaciones finales de calidad y optimizar cada paso de generación en consecuencia. Los resultados empíricos en diversos benchmarks demuestran que SuperWriter-LM alcanza un rendimiento de vanguardia, superando incluso a modelos de referencia de mayor escala tanto en evaluaciones automáticas como en evaluaciones humanas. Además, estudios de ablación exhaustivos demuestran la efectividad del DPO jerárquico y destacan el valor de incorporar pasos de pensamiento estructurado para mejorar la calidad de la generación de textos extensos.
English
Long-form text generation remains a significant challenge for large language
models (LLMs), particularly in maintaining coherence, ensuring logical
consistency, and preserving text quality as sequence length increases. To
address these limitations, we propose SuperWriter-Agent, an agent-based
framework designed to enhance the quality and consistency of long-form text
generation. SuperWriter-Agent introduces explicit structured thinking-through
planning and refinement stages into the generation pipeline, guiding the model
to follow a more deliberate and cognitively grounded process akin to that of a
professional writer. Based on this framework, we construct a supervised
fine-tuning dataset to train a 7B SuperWriter-LM. We further develop a
hierarchical Direct Preference Optimization (DPO) procedure that uses Monte
Carlo Tree Search (MCTS) to propagate final quality assessments and optimize
each generation step accordingly. Empirical results across diverse benchmarks
demonstrate that SuperWriter-LM achieves state-of-the-art performance,
surpassing even larger-scale baseline models in both automatic evaluation and
human evaluation. Furthermore, comprehensive ablation studies demonstrate the
effectiveness of hierarchical DPO and underscore the value of incorporating
structured thinking steps to improve the quality of long-form text generation.