Rapporto Tecnico Qwen2.5-1M
Qwen2.5-1M Technical Report
January 26, 2025
Autori: An Yang, Bowen Yu, Chengyuan Li, Dayiheng Liu, Fei Huang, Haoyan Huang, Jiandong Jiang, Jianhong Tu, Jianwei Zhang, Jingren Zhou, Junyang Lin, Kai Dang, Kexin Yang, Le Yu, Mei Li, Minmin Sun, Qin Zhu, Rui Men, Tao He, Weijia Xu, Wenbiao Yin, Wenyuan Yu, Xiafei Qiu, Xingzhang Ren, Xinlong Yang, Yong Li, Zhiying Xu, Zipeng Zhang
cs.AI
Abstract
Introduciamo Qwen2.5-1M, una serie di modelli che estendono la lunghezza del contesto a 1 milione di token. Rispetto alla versione precedente da 128K, la serie Qwen2.5-1M ha capacità di lungo contesto significativamente migliorate attraverso pre-training e post-training di lungo contesto. Tecniche chiave come la sintesi di dati lunghi, il pre-training progressivo e il fine-tuning supervisionato a più fasi vengono impiegate per potenziare efficacemente le prestazioni del lungo contesto riducendo i costi di addestramento.
Per promuovere l'uso di modelli a lungo contesto tra un pubblico più ampio, presentiamo e rendiamo open-source il nostro framework di inferenza. Questo framework include un metodo di estrapolazione della lunghezza che può espandere le lunghezze del contesto del modello almeno di quattro volte, o anche di più, senza addestramento aggiuntivo. Per ridurre i costi di inferenza, implementiamo un metodo di attenzione sparso insieme all'ottimizzazione di riempimento chunked per scenari di distribuzione e un metodo di raffinamento della sparsetà per migliorare la precisione. Inoltre, dettagliamo le nostre ottimizzazioni nel motore di inferenza, inclusa l'ottimizzazione del kernel, il parallelismo della pipeline e l'ottimizzazione della pianificazione, che migliorano significativamente le prestazioni complessive dell'inferenza. Sfruttando il nostro framework di inferenza, i modelli Qwen2.5-1M ottengono un notevole aumento della velocità di riempimento di 3x a 7x in scenari con 1 milione di token di contesto. Questo framework fornisce una soluzione efficiente e potente per lo sviluppo di applicazioni che richiedono l'elaborazione di lungo contesto utilizzando modelli open-source.
La serie Qwen2.5-1M include attualmente i modelli open-source Qwen2.5-7B-Instruct-1M e Qwen2.5-14B-Instruct-1M, nonché il modello Qwen2.5-Turbo accessibile tramite API. Le valutazioni mostrano che i modelli Qwen2.5-1M sono stati notevolmente migliorati nei compiti di lungo contesto senza compromettere le prestazioni nei scenari di breve contesto. In particolare, il modello Qwen2.5-14B-Instruct-1M supera significativamente GPT-4o-mini nei compiti di lungo contesto e supporta contesti otto volte più lunghi.
English
We introduce Qwen2.5-1M, a series of models that extend the context length to
1 million tokens. Compared to the previous 128K version, the Qwen2.5-1M series
have significantly enhanced long-context capabilities through long-context
pre-training and post-training. Key techniques such as long data synthesis,
progressive pre-training, and multi-stage supervised fine-tuning are employed
to effectively enhance long-context performance while reducing training costs.
To promote the use of long-context models among a broader user base, we
present and open-source our inference framework. This framework includes a
length extrapolation method that can expand the model context lengths by at
least four times, or even more, without additional training. To reduce
inference costs, we implement a sparse attention method along with chunked
prefill optimization for deployment scenarios and a sparsity refinement method
to improve precision. Additionally, we detail our optimizations in the
inference engine, including kernel optimization, pipeline parallelism, and
scheduling optimization, which significantly enhance overall inference
performance. By leveraging our inference framework, the Qwen2.5-1M models
achieve a remarkable 3x to 7x prefill speedup in scenarios with 1 million
tokens of context. This framework provides an efficient and powerful solution
for developing applications that require long-context processing using
open-source models.
The Qwen2.5-1M series currently includes the open-source models
Qwen2.5-7B-Instruct-1M and Qwen2.5-14B-Instruct-1M, as well as the API-accessed
model Qwen2.5-Turbo. Evaluations show that Qwen2.5-1M models have been greatly
improved in long-context tasks without compromising performance in
short-context scenarios. Specifically, the Qwen2.5-14B-Instruct-1M model
significantly outperforms GPT-4o-mini in long-context tasks and supports
contexts eight times longer.Summary
AI-Generated Summary