Qwen2.5-1M技术报告Qwen2.5-1M Technical Report
我们介绍了Qwen2.5-1M系列模型,将上下文长度扩展到100万个标记。与之前的128K版本相比,Qwen2.5-1M系列通过长上下文预训练和后训练显著增强了长上下文能力。关键技术包括长数据合成、渐进式预训练和多阶段监督微调,有效提升了长上下文性能同时降低了训练成本。为了推广长上下文模型在更广泛的用户群体中的使用,我们提出并开源了推理框架。该框架包括一种长度外推方法,可以将模型上下文长度至少扩展四倍,甚至更多,而无需额外训练。为了降低推理成本,我们实现了一种稀疏注意力方法,以及用于部署场景的分块预填充优化,以及用于提高精度的稀疏度优化方法。此外,我们详细介绍了推理引擎中的优化,包括内核优化、管道并行和调度优化,显著提升了整体推理性能。通过利用我们的推理框架,Qwen2.5-1M模型在具有100万个标记上下文的场景中实现了显著的3倍至7倍的预填充加速。该框架为使用开源模型进行长上下文处理的应用开发提供了高效而强大的解决方案。 Qwen2.5-1M系列目前包括开源模型Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M,以及API访问模型Qwen2.5-Turbo。评估表明,Qwen2.5-1M模型在长上下文任务中有了很大改进,而在短上下文场景中性能没有受损。具体来说,Qwen2.5-14B-Instruct-1M模型在长上下文任务中明显优于GPT-4o-mini,并支持长度为其八倍的上下文。