Rapporto Tecnico Qwen2.5-1M

Abstract

Introduciamo Qwen2.5-1M, una serie di modelli che estendono la lunghezza del contesto a 1 milione di token. Rispetto alla versione precedente da 128K, la serie Qwen2.5-1M ha capacità di lungo contesto significativamente migliorate attraverso pre-training e post-training di lungo contesto. Tecniche chiave come la sintesi di dati lunghi, il pre-training progressivo e il fine-tuning supervisionato a più fasi vengono impiegate per potenziare efficacemente le prestazioni del lungo contesto riducendo i costi di addestramento. Per promuovere l'uso di modelli a lungo contesto tra un pubblico più ampio, presentiamo e rendiamo open-source il nostro framework di inferenza. Questo framework include un metodo di estrapolazione della lunghezza che può espandere le lunghezze del contesto del modello almeno di quattro volte, o anche di più, senza addestramento aggiuntivo. Per ridurre i costi di inferenza, implementiamo un metodo di attenzione sparso insieme all'ottimizzazione di riempimento chunked per scenari di distribuzione e un metodo di raffinamento della sparsetà per migliorare la precisione. Inoltre, dettagliamo le nostre ottimizzazioni nel motore di inferenza, inclusa l'ottimizzazione del kernel, il parallelismo della pipeline e l'ottimizzazione della pianificazione, che migliorano significativamente le prestazioni complessive dell'inferenza. Sfruttando il nostro framework di inferenza, i modelli Qwen2.5-1M ottengono un notevole aumento della velocità di riempimento di 3x a 7x in scenari con 1 milione di token di contesto. Questo framework fornisce una soluzione efficiente e potente per lo sviluppo di applicazioni che richiedono l'elaborazione di lungo contesto utilizzando modelli open-source. La serie Qwen2.5-1M include attualmente i modelli open-source Qwen2.5-7B-Instruct-1M e Qwen2.5-14B-Instruct-1M, nonché il modello Qwen2.5-Turbo accessibile tramite API. Le valutazioni mostrano che i modelli Qwen2.5-1M sono stati notevolmente migliorati nei compiti di lungo contesto senza compromettere le prestazioni nei scenari di breve contesto. In particolare, il modello Qwen2.5-14B-Instruct-1M supera significativamente GPT-4o-mini nei compiti di lungo contesto e supporta contesti otto volte più lunghi.

English

We introduce Qwen2.5-1M, a series of models that extend the context length to 1 million tokens. Compared to the previous 128K version, the Qwen2.5-1M series have significantly enhanced long-context capabilities through long-context pre-training and post-training. Key techniques such as long data synthesis, progressive pre-training, and multi-stage supervised fine-tuning are employed to effectively enhance long-context performance while reducing training costs. To promote the use of long-context models among a broader user base, we present and open-source our inference framework. This framework includes a length extrapolation method that can expand the model context lengths by at least four times, or even more, without additional training. To reduce inference costs, we implement a sparse attention method along with chunked prefill optimization for deployment scenarios and a sparsity refinement method to improve precision. Additionally, we detail our optimizations in the inference engine, including kernel optimization, pipeline parallelism, and scheduling optimization, which significantly enhance overall inference performance. By leveraging our inference framework, the Qwen2.5-1M models achieve a remarkable 3x to 7x prefill speedup in scenarios with 1 million tokens of context. This framework provides an efficient and powerful solution for developing applications that require long-context processing using open-source models. The Qwen2.5-1M series currently includes the open-source models Qwen2.5-7B-Instruct-1M and Qwen2.5-14B-Instruct-1M, as well as the API-accessed model Qwen2.5-Turbo. Evaluations show that Qwen2.5-1M models have been greatly improved in long-context tasks without compromising performance in short-context scenarios. Specifically, the Qwen2.5-14B-Instruct-1M model significantly outperforms GPT-4o-mini in long-context tasks and supports contexts eight times longer.

Rapporto Tecnico Qwen2.5-1M

Qwen2.5-1M Technical Report

Abstract

Support