Relatório Técnico Qwen2.5-1MQwen2.5-1M Technical Report
Apresentamos o Qwen2.5-1M, uma série de modelos que estendem o comprimento do contexto para 1 milhão de tokens. Comparados à versão anterior de 128K, a série Qwen2.5-1M possui capacidades significativamente aprimoradas de contexto longo por meio de pré-treinamento e pós-treinamento de longo contexto. Técnicas-chave como síntese de dados longos, pré-treinamento progressivo e ajuste fino supervisionado em múltiplos estágios são empregadas para aprimorar efetivamente o desempenho de contexto longo, reduzindo os custos de treinamento. Para promover o uso de modelos de contexto longo entre uma base de usuários mais ampla, apresentamos e disponibilizamos nosso framework de inferência de código aberto. Esse framework inclui um método de extrapolação de comprimento que pode expandir os comprimentos de contexto do modelo pelo menos quatro vezes, ou até mais, sem treinamento adicional. Para reduzir os custos de inferência, implementamos um método de atenção esparsa juntamente com otimização de preenchimento segmentado para cenários de implantação, e um método de refinamento de esparsidade para melhorar a precisão. Além disso, detalhamos nossas otimizações no mecanismo de inferência, incluindo otimização de kernel, paralelismo de pipeline e otimização de agendamento, que aprimoram significativamente o desempenho geral da inferência. Ao aproveitar nosso framework de inferência, os modelos Qwen2.5-1M alcançam um notável aumento de velocidade de preenchimento de 3x a 7x em cenários com 1 milhão de tokens de contexto. Esse framework fornece uma solução eficiente e poderosa para o desenvolvimento de aplicações que requerem processamento de contexto longo usando modelos de código aberto. A série Qwen2.5-1M atualmente inclui os modelos de código aberto Qwen2.5-7B-Instruct-1M e Qwen2.5-14B-Instruct-1M, bem como o modelo Qwen2.5-Turbo acessado por API. Avaliações mostram que os modelos Qwen2.5-1M foram significativamente aprimorados em tarefas de contexto longo sem comprometer o desempenho em cenários de contexto curto. Especificamente, o modelo Qwen2.5-14B-Instruct-1M supera significativamente o GPT-4o-mini em tarefas de contexto longo e suporta contextos oito vezes mais longos.