LongWriter-Zero: Dominando la Generación de Textos Ultra-Largos mediante Aprendizaje por Refuerzo

Resumen

La generación ultra-larga por parte de los modelos de lenguaje de gran escala (LLMs) es un escenario ampliamente demandado, pero sigue siendo un desafío significativo debido a su límite máximo de longitud de generación y la degradación general de la calidad a medida que aumenta la longitud de la secuencia. Enfoques anteriores, ejemplificados por LongWriter, suelen basarse en la "enseñanza", que implica un ajuste fino supervisado (SFT) en salidas sintéticas de formato largo. Sin embargo, esta estrategia depende en gran medida de datos sintéticos de SFT, que son difíciles y costosos de construir, a menudo carecen de coherencia y consistencia, y tienden a ser excesivamente artificiales y estructuralmente monótonos. En este trabajo, proponemos un enfoque basado en incentivos que, partiendo completamente desde cero y sin depender de datos anotados o sintéticos, aprovecha el aprendizaje por refuerzo (RL) para fomentar la aparición de capacidades de generación de texto ultra-largo y de alta calidad en los LLMs. Realizamos entrenamiento de RL a partir de un modelo base, similar a R1-Zero, guiándolo para que participe en un razonamiento que facilite la planificación y el refinamiento durante el proceso de escritura. Para apoyar esto, empleamos modelos de recompensa especializados que dirigen al LLM hacia un mejor control de la longitud, calidad de escritura y formato estructural. Las evaluaciones experimentales muestran que nuestro modelo LongWriter-Zero, entrenado a partir de Qwen2.5-32B, supera consistentemente los métodos tradicionales de SFT en tareas de escritura de formato largo, logrando resultados de vanguardia en todas las métricas en WritingBench y Arena-Write, e incluso superando modelos de 100B+ como DeepSeek R1 y Qwen3-235B. Hemos liberado nuestros datos y puntos de control del modelo en https://huggingface.co/THU-KEG/LongWriter-Zero-32B.

English

Ultra-long generation by large language models (LLMs) is a widely demanded scenario, yet it remains a significant challenge due to their maximum generation length limit and overall quality degradation as sequence length increases. Previous approaches, exemplified by LongWriter, typically rely on ''teaching'', which involves supervised fine-tuning (SFT) on synthetic long-form outputs. However, this strategy heavily depends on synthetic SFT data, which is difficult and costly to construct, often lacks coherence and consistency, and tends to be overly artificial and structurally monotonous. In this work, we propose an incentivization-based approach that, starting entirely from scratch and without relying on any annotated or synthetic data, leverages reinforcement learning (RL) to foster the emergence of ultra-long, high-quality text generation capabilities in LLMs. We perform RL training starting from a base model, similar to R1-Zero, guiding it to engage in reasoning that facilitates planning and refinement during the writing process. To support this, we employ specialized reward models that steer the LLM towards improved length control, writing quality, and structural formatting. Experimental evaluations show that our LongWriter-Zero model, trained from Qwen2.5-32B, consistently outperforms traditional SFT methods on long-form writing tasks, achieving state-of-the-art results across all metrics on WritingBench and Arena-Write, and even surpassing 100B+ models such as DeepSeek R1 and Qwen3-235B. We open-source our data and model checkpoints under https://huggingface.co/THU-KEG/LongWriter-Zero-32B

LongWriter-Zero: Dominando la Generación de Textos Ultra-Largos mediante Aprendizaje por Refuerzo

LongWriter-Zero: Mastering Ultra-Long Text Generation via Reinforcement Learning

Resumen

Support