Qwen2.5-1M テクニカルレポートQwen2.5-1M Technical Report
Qwen2.5-1Mというモデルシリーズを紹介します。このシリーズは、コンテキスト長を100万トークンに拡張しています。以前の128Kバージョンと比較して、Qwen2.5-1Mシリーズは、長いコンテキストの事前トレーニングと事後トレーニングを通じて、著しく向上した長いコンテキスト能力を持っています。長いデータ合成、段階的な事前トレーニング、および多段階の教師付き微調整などの主要技術が使用され、長いコンテキストの性能を効果的に向上させると同時にトレーニングコストを削減します。 より広範なユーザーベースで長いコンテキストモデルの使用を促進するために、推論フレームワークを提示してオープンソース化します。このフレームワークには、モデルのコンテキスト長を少なくとも4倍、またはそれ以上拡張できる長さの外挿方法が含まれています。推論コストを削減するために、デプロイメントシナリオ向けに疎な注意メソッドとチャンク化されたプリフィル最適化を実装し、精度を向上させるための疎なリファインメントメソッドも採用しています。さらに、カーネル最適化、パイプライン並列処理、スケジューリング最適化などの推論エンジンの最適化について詳細に説明し、全体的な推論パフォーマンスを著しく向上させています。推論フレームワークを活用することで、Qwen2.5-1Mモデルは、100万トークンのコンテキストを持つシナリオで驚異的な3倍から7倍のプリフィル高速化を実現しています。このフレームワークは、オープンソースモデルを使用して長いコンテキスト処理を必要とするアプリケーションの開発に効率的かつ強力なソリューションを提供します。 Qwen2.5-1Mシリーズには、オープンソースモデルのQwen2.5-7B-Instruct-1MとQwen2.5-14B-Instruct-1M、およびAPIアクセスモデルのQwen2.5-Turboが含まれています。評価によると、Qwen2.5-1Mモデルは、長いコンテキストタスクで大幅に改善されており、短いコンテキストシナリオでのパフォーマンスを損なうことなく、特にQwen2.5-14B-Instruct-1Mモデルは、長いコンテキストタスクでGPT-4o-miniを大幅に上回り、8倍長いコンテキストをサポートしています。