LongWriter: Het genereren van 10.000+ woorden uit LLM's met lange context
LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs
August 13, 2024
Auteurs: Yushi Bai, Jiajie Zhang, Xin Lv, Linzhi Zheng, Siqi Zhu, Lei Hou, Yuxiao Dong, Jie Tang, Juanzi Li
cs.AI
Samenvatting
Huidige grote taalmodellen (LLMs) met lange context kunnen inputs verwerken tot 100.000 tokens, maar hebben moeite om outputs te genereren die zelfs een bescheiden lengte van 2.000 woorden overschrijden. Door middel van gecontroleerde experimenten ontdekken we dat de effectieve generatielengte van het model inherent beperkt wordt door de voorbeelden die het heeft gezien tijdens supervised fine-tuning (SFT). Met andere woorden, hun outputbeperking is te wijten aan de schaarste aan lange-outputvoorbeelden in bestaande SFT-datasets. Om dit aan te pakken, introduceren we AgentWrite, een agent-gebaseerde pijplijn die ultra-lange generatietaken opdeelt in subtaken, waardoor standaard LLMs coherente outputs kunnen genereren die meer dan 20.000 woorden overschrijden. Door gebruik te maken van AgentWrite, construeren we LongWriter-6k, een dataset met 6.000 SFT-gegevens met outputlengtes variërend van 2k tot 32k woorden. Door deze dataset op te nemen in modeltraining, schalen we de outputlengte van bestaande modellen succesvol op tot meer dan 10.000 woorden, terwijl de outputkwaliteit behouden blijft. We ontwikkelen ook LongBench-Write, een uitgebreide benchmark voor het evalueren van ultra-lange generatiecapaciteiten. Ons 9B-parametermodel, verder verbeterd door DPO, behaalt state-of-the-art prestaties op deze benchmark en overtreft zelfs veel grotere propriëtaire modellen. Over het algemeen toont ons werk aan dat bestaande lange-context LLMs al het potentieel hebben voor een groter outputvenster—het enige wat nodig is, zijn gegevens met uitgebreide output tijdens modelafstemming om deze capaciteit te ontgrendelen. Onze code en modellen zijn te vinden op: https://github.com/THUDM/LongWriter.
English
Current long context large language models (LLMs) can process inputs up to
100,000 tokens, yet struggle to generate outputs exceeding even a modest length
of 2,000 words. Through controlled experiments, we find that the model's
effective generation length is inherently bounded by the sample it has seen
during supervised fine-tuning (SFT). In other words, their output limitation is
due to the scarcity of long-output examples in existing SFT datasets. To
address this, we introduce AgentWrite, an agent-based pipeline that decomposes
ultra-long generation tasks into subtasks, enabling off-the-shelf LLMs to
generate coherent outputs exceeding 20,000 words. Leveraging AgentWrite, we
construct LongWriter-6k, a dataset containing 6,000 SFT data with output
lengths ranging from 2k to 32k words. By incorporating this dataset into model
training, we successfully scale the output length of existing models to over
10,000 words while maintaining output quality. We also develop LongBench-Write,
a comprehensive benchmark for evaluating ultra-long generation capabilities.
Our 9B parameter model, further improved through DPO, achieves state-of-the-art
performance on this benchmark, surpassing even much larger proprietary models.
In general, our work demonstrates that existing long context LLM already
possesses the potential for a larger output window--all you need is data with
extended output during model alignment to unlock this capability. Our code &
models are at: https://github.com/THUDM/LongWriter.