LongWriter-Zero: Dominando la Generación de Textos Ultra-Largos mediante Aprendizaje por Refuerzo
LongWriter-Zero: Mastering Ultra-Long Text Generation via Reinforcement Learning
June 23, 2025
Autores: Yuhao Wu, Yushi Bai, Zhiqiang Hu, Roy Ka-Wei Lee, Juanzi Li
cs.AI
Resumen
La generación ultra-larga por parte de los modelos de lenguaje de gran escala (LLMs) es un escenario ampliamente demandado, pero sigue siendo un desafío significativo debido a su límite máximo de longitud de generación y la degradación general de la calidad a medida que aumenta la longitud de la secuencia. Enfoques anteriores, ejemplificados por LongWriter, suelen basarse en la "enseñanza", que implica un ajuste fino supervisado (SFT) en salidas sintéticas de formato largo. Sin embargo, esta estrategia depende en gran medida de datos sintéticos de SFT, que son difíciles y costosos de construir, a menudo carecen de coherencia y consistencia, y tienden a ser excesivamente artificiales y estructuralmente monótonos. En este trabajo, proponemos un enfoque basado en incentivos que, partiendo completamente desde cero y sin depender de datos anotados o sintéticos, aprovecha el aprendizaje por refuerzo (RL) para fomentar la aparición de capacidades de generación de texto ultra-largo y de alta calidad en los LLMs. Realizamos entrenamiento de RL a partir de un modelo base, similar a R1-Zero, guiándolo para que participe en un razonamiento que facilite la planificación y el refinamiento durante el proceso de escritura. Para apoyar esto, empleamos modelos de recompensa especializados que dirigen al LLM hacia un mejor control de la longitud, calidad de escritura y formato estructural. Las evaluaciones experimentales muestran que nuestro modelo LongWriter-Zero, entrenado a partir de Qwen2.5-32B, supera consistentemente los métodos tradicionales de SFT en tareas de escritura de formato largo, logrando resultados de vanguardia en todas las métricas en WritingBench y Arena-Write, e incluso superando modelos de 100B+ como DeepSeek R1 y Qwen3-235B. Hemos liberado nuestros datos y puntos de control del modelo en https://huggingface.co/THU-KEG/LongWriter-Zero-32B.
English
Ultra-long generation by large language models (LLMs) is a widely demanded
scenario, yet it remains a significant challenge due to their maximum
generation length limit and overall quality degradation as sequence length
increases. Previous approaches, exemplified by LongWriter, typically rely on
''teaching'', which involves supervised fine-tuning (SFT) on synthetic
long-form outputs. However, this strategy heavily depends on synthetic SFT
data, which is difficult and costly to construct, often lacks coherence and
consistency, and tends to be overly artificial and structurally monotonous. In
this work, we propose an incentivization-based approach that, starting entirely
from scratch and without relying on any annotated or synthetic data, leverages
reinforcement learning (RL) to foster the emergence of ultra-long, high-quality
text generation capabilities in LLMs. We perform RL training starting from a
base model, similar to R1-Zero, guiding it to engage in reasoning that
facilitates planning and refinement during the writing process. To support
this, we employ specialized reward models that steer the LLM towards improved
length control, writing quality, and structural formatting. Experimental
evaluations show that our LongWriter-Zero model, trained from Qwen2.5-32B,
consistently outperforms traditional SFT methods on long-form writing tasks,
achieving state-of-the-art results across all metrics on WritingBench and
Arena-Write, and even surpassing 100B+ models such as DeepSeek R1 and
Qwen3-235B. We open-source our data and model checkpoints under
https://huggingface.co/THU-KEG/LongWriter-Zero-32B