Relatório Técnico Qwen2.5-1M
Qwen2.5-1M Technical Report
January 26, 2025
Autores: An Yang, Bowen Yu, Chengyuan Li, Dayiheng Liu, Fei Huang, Haoyan Huang, Jiandong Jiang, Jianhong Tu, Jianwei Zhang, Jingren Zhou, Junyang Lin, Kai Dang, Kexin Yang, Le Yu, Mei Li, Minmin Sun, Qin Zhu, Rui Men, Tao He, Weijia Xu, Wenbiao Yin, Wenyuan Yu, Xiafei Qiu, Xingzhang Ren, Xinlong Yang, Yong Li, Zhiying Xu, Zipeng Zhang
cs.AI
Resumo
Apresentamos o Qwen2.5-1M, uma série de modelos que estendem o comprimento do contexto para 1 milhão de tokens. Comparados à versão anterior de 128K, a série Qwen2.5-1M possui capacidades significativamente aprimoradas de contexto longo por meio de pré-treinamento e pós-treinamento de longo contexto. Técnicas-chave como síntese de dados longos, pré-treinamento progressivo e ajuste fino supervisionado em múltiplos estágios são empregadas para aprimorar efetivamente o desempenho de contexto longo, reduzindo os custos de treinamento.
Para promover o uso de modelos de contexto longo entre uma base de usuários mais ampla, apresentamos e disponibilizamos nosso framework de inferência de código aberto. Esse framework inclui um método de extrapolação de comprimento que pode expandir os comprimentos de contexto do modelo pelo menos quatro vezes, ou até mais, sem treinamento adicional. Para reduzir os custos de inferência, implementamos um método de atenção esparsa juntamente com otimização de preenchimento segmentado para cenários de implantação, e um método de refinamento de esparsidade para melhorar a precisão. Além disso, detalhamos nossas otimizações no mecanismo de inferência, incluindo otimização de kernel, paralelismo de pipeline e otimização de agendamento, que aprimoram significativamente o desempenho geral da inferência. Ao aproveitar nosso framework de inferência, os modelos Qwen2.5-1M alcançam um notável aumento de velocidade de preenchimento de 3x a 7x em cenários com 1 milhão de tokens de contexto. Esse framework fornece uma solução eficiente e poderosa para o desenvolvimento de aplicações que requerem processamento de contexto longo usando modelos de código aberto.
A série Qwen2.5-1M atualmente inclui os modelos de código aberto Qwen2.5-7B-Instruct-1M e Qwen2.5-14B-Instruct-1M, bem como o modelo Qwen2.5-Turbo acessado por API. Avaliações mostram que os modelos Qwen2.5-1M foram significativamente aprimorados em tarefas de contexto longo sem comprometer o desempenho em cenários de contexto curto. Especificamente, o modelo Qwen2.5-14B-Instruct-1M supera significativamente o GPT-4o-mini em tarefas de contexto longo e suporta contextos oito vezes mais longos.
English
We introduce Qwen2.5-1M, a series of models that extend the context length to
1 million tokens. Compared to the previous 128K version, the Qwen2.5-1M series
have significantly enhanced long-context capabilities through long-context
pre-training and post-training. Key techniques such as long data synthesis,
progressive pre-training, and multi-stage supervised fine-tuning are employed
to effectively enhance long-context performance while reducing training costs.
To promote the use of long-context models among a broader user base, we
present and open-source our inference framework. This framework includes a
length extrapolation method that can expand the model context lengths by at
least four times, or even more, without additional training. To reduce
inference costs, we implement a sparse attention method along with chunked
prefill optimization for deployment scenarios and a sparsity refinement method
to improve precision. Additionally, we detail our optimizations in the
inference engine, including kernel optimization, pipeline parallelism, and
scheduling optimization, which significantly enhance overall inference
performance. By leveraging our inference framework, the Qwen2.5-1M models
achieve a remarkable 3x to 7x prefill speedup in scenarios with 1 million
tokens of context. This framework provides an efficient and powerful solution
for developing applications that require long-context processing using
open-source models.
The Qwen2.5-1M series currently includes the open-source models
Qwen2.5-7B-Instruct-1M and Qwen2.5-14B-Instruct-1M, as well as the API-accessed
model Qwen2.5-Turbo. Evaluations show that Qwen2.5-1M models have been greatly
improved in long-context tasks without compromising performance in
short-context scenarios. Specifically, the Qwen2.5-14B-Instruct-1M model
significantly outperforms GPT-4o-mini in long-context tasks and supports
contexts eight times longer.Summary
AI-Generated Summary