ChatPaper.aiChatPaper

LongWriter: Sbloccare la Generazione di Testi Oltre le 10.000 Parole da Modelli Linguistici con Contesti Estesi

LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs

August 13, 2024
Autori: Yushi Bai, Jiajie Zhang, Xin Lv, Linzhi Zheng, Siqi Zhu, Lei Hou, Yuxiao Dong, Jie Tang, Juanzi Li
cs.AI

Abstract

Gli attuali modelli linguistici di grandi dimensioni (LLM) con contesto lungo possono elaborare input fino a 100.000 token, ma faticano a generare output che superino anche una lunghezza modesta di 2.000 parole. Attraverso esperimenti controllati, abbiamo scoperto che la lunghezza effettiva della generazione del modello è intrinsecamente limitata dai campioni che ha visto durante il fine-tuning supervisionato (SFT). In altre parole, la loro limitazione nell'output è dovuta alla scarsità di esempi con output lunghi nei dataset SFT esistenti. Per affrontare questo problema, introduciamo AgentWrite, una pipeline basata su agenti che scompone i compiti di generazione ultra-lunghi in sottotask, consentendo ai LLM esistenti di generare output coerenti che superano le 20.000 parole. Sfruttando AgentWrite, costruiamo LongWriter-6k, un dataset contenente 6.000 dati SFT con lunghezze di output che vanno da 2k a 32k parole. Incorporando questo dataset nell'addestramento del modello, riusciamo a scalare la lunghezza dell'output dei modelli esistenti a oltre 10.000 parole mantenendo la qualità dell'output. Abbiamo anche sviluppato LongBench-Write, un benchmark completo per valutare le capacità di generazione ultra-lunga. Il nostro modello da 9B parametri, ulteriormente migliorato tramite DPO, raggiunge prestazioni all'avanguardia su questo benchmark, superando persino modelli proprietari molto più grandi. In generale, il nostro lavoro dimostra che gli attuali LLM con contesto lungo possiedono già il potenziale per una finestra di output più ampia: tutto ciò di cui si ha bisogno sono dati con output estesi durante l'allineamento del modello per sbloccare questa capacità. Il nostro codice e i nostri modelli sono disponibili su: https://github.com/THUDM/LongWriter.
English
Current long context large language models (LLMs) can process inputs up to 100,000 tokens, yet struggle to generate outputs exceeding even a modest length of 2,000 words. Through controlled experiments, we find that the model's effective generation length is inherently bounded by the sample it has seen during supervised fine-tuning (SFT). In other words, their output limitation is due to the scarcity of long-output examples in existing SFT datasets. To address this, we introduce AgentWrite, an agent-based pipeline that decomposes ultra-long generation tasks into subtasks, enabling off-the-shelf LLMs to generate coherent outputs exceeding 20,000 words. Leveraging AgentWrite, we construct LongWriter-6k, a dataset containing 6,000 SFT data with output lengths ranging from 2k to 32k words. By incorporating this dataset into model training, we successfully scale the output length of existing models to over 10,000 words while maintaining output quality. We also develop LongBench-Write, a comprehensive benchmark for evaluating ultra-long generation capabilities. Our 9B parameter model, further improved through DPO, achieves state-of-the-art performance on this benchmark, surpassing even much larger proprietary models. In general, our work demonstrates that existing long context LLM already possesses the potential for a larger output window--all you need is data with extended output during model alignment to unlock this capability. Our code & models are at: https://github.com/THUDM/LongWriter.
PDF676November 28, 2024