ChatPaper.aiChatPaper

SuperWriter: Geração de Textos Longos Orientada por Reflexão com Modelos de Linguagem de Grande Escala

SuperWriter: Reflection-Driven Long-Form Generation with Large Language Models

June 4, 2025
Autores: Yuhao Wu, Yushi Bai, Zhiqiang Hu, Juanzi Li, Roy Ka-Wei Lee
cs.AI

Resumo

A geração de textos longos continua sendo um desafio significativo para grandes modelos de linguagem (LLMs), especialmente na manutenção da coerência, garantia da consistência lógica e preservação da qualidade do texto à medida que o comprimento da sequência aumenta. Para abordar essas limitações, propomos o SuperWriter-Agent, uma estrutura baseada em agentes projetada para aprimorar a qualidade e a consistência da geração de textos longos. O SuperWriter-Agent introduz etapas explícitas de pensamento estruturado, como planejamento e refinamento, no pipeline de geração, orientando o modelo a seguir um processo mais deliberado e cognitivamente fundamentado, semelhante ao de um escritor profissional. Com base nessa estrutura, construímos um conjunto de dados de ajuste fino supervisionado para treinar um SuperWriter-LM de 7B. Desenvolvemos ainda um procedimento hierárquico de Otimização de Preferência Direta (DPO) que utiliza a Busca em Árvore de Monte Carlo (MCTS) para propagar avaliações finais de qualidade e otimizar cada etapa de geração de acordo. Resultados empíricos em diversos benchmarks demonstram que o SuperWriter-LM alcança desempenho de ponta, superando até mesmo modelos de linha de base em maior escala, tanto em avaliações automáticas quanto em avaliações humanas. Além disso, estudos abrangentes de ablação demonstram a eficácia do DPO hierárquico e destacam o valor da incorporação de etapas de pensamento estruturado para melhorar a qualidade da geração de textos longos.
English
Long-form text generation remains a significant challenge for large language models (LLMs), particularly in maintaining coherence, ensuring logical consistency, and preserving text quality as sequence length increases. To address these limitations, we propose SuperWriter-Agent, an agent-based framework designed to enhance the quality and consistency of long-form text generation. SuperWriter-Agent introduces explicit structured thinking-through planning and refinement stages into the generation pipeline, guiding the model to follow a more deliberate and cognitively grounded process akin to that of a professional writer. Based on this framework, we construct a supervised fine-tuning dataset to train a 7B SuperWriter-LM. We further develop a hierarchical Direct Preference Optimization (DPO) procedure that uses Monte Carlo Tree Search (MCTS) to propagate final quality assessments and optimize each generation step accordingly. Empirical results across diverse benchmarks demonstrate that SuperWriter-LM achieves state-of-the-art performance, surpassing even larger-scale baseline models in both automatic evaluation and human evaluation. Furthermore, comprehensive ablation studies demonstrate the effectiveness of hierarchical DPO and underscore the value of incorporating structured thinking steps to improve the quality of long-form text generation.
PDF322June 5, 2025