Qwen2.5-1M Technischer BerichtQwen2.5-1M Technical Report
Wir stellen Qwen2.5-1M vor, eine Serie von Modellen, die die Kontextlänge auf 1 Million Tokens erweitern. Im Vergleich zur vorherigen 128K-Version weisen die Qwen2.5-1M-Modelle signifikant verbesserte Fähigkeiten im Umgang mit langem Kontext auf, durch Vor- und Nachtraining mit langem Kontext. Schlüsseltechniken wie die Synthese langer Daten, progressives Vortraining und mehrstufiges überwachtes Feintuning werden eingesetzt, um die Leistung im Umgang mit langem Kontext effektiv zu verbessern und gleichzeitig die Trainingskosten zu reduzieren. Um den Einsatz von Modellen mit langem Kontext in einem breiteren Nutzerkreis zu fördern, präsentieren wir unser Inferenz-Framework als Open Source. Dieses Framework beinhaltet eine Längenextrapolationsmethode, die die Modellkontextlängen um mindestens das Vierfache oder sogar mehr ohne zusätzliches Training erweitern kann. Zur Reduzierung der Inferenzkosten implementieren wir eine Methode für spärliche Aufmerksamkeit zusammen mit optimierter vorausgefüllter Chunkung für Einsatzszenarien und eine Methode zur Sparsamkeitsverfeinerung zur Verbesserung der Präzision. Darüber hinaus erläutern wir unsere Optimierungen im Inferenz-Engine, einschließlich Kernel-Optimierung, Pipeline-Parallelität und Zeitplanoptimierung, die die Gesamtinferenzleistung signifikant verbessern. Durch die Nutzung unseres Inferenz-Frameworks erreichen die Qwen2.5-1M-Modelle eine bemerkenswerte 3- bis 7-fache Beschleunigung bei der Vorausfüllung in Szenarien mit 1 Million Tokens im Kontext. Dieses Framework bietet eine effiziente und leistungsstarke Lösung für die Entwicklung von Anwendungen, die die Verarbeitung von langem Kontext unter Verwendung von Open-Source-Modellen erfordern. Die Qwen2.5-1M-Serie umfasst derzeit die Open-Source-Modelle Qwen2.5-7B-Instruct-1M und Qwen2.5-14B-Instruct-1M sowie das API-zugängliche Modell Qwen2.5-Turbo. Evaluierungen zeigen, dass die Qwen2.5-1M-Modelle in langen Kontextaufgaben erheblich verbessert wurden, ohne die Leistung in Szenarien mit kurzem Kontext zu beeinträchtigen. Insbesondere übertrifft das Qwen2.5-14B-Instruct-1M-Modell signifikant das GPT-4o-mini in langen Kontextaufgaben und unterstützt achtmal längere Kontexte.