Технический отчет Qwen2.5-1MQwen2.5-1M Technical Report
Мы представляем серию моделей Qwen2.5-1M, которые расширяют длину контекста до 1 миллиона токенов. По сравнению с предыдущей версией на 128 тыс. токенов, серия Qwen2.5-1M значительно улучшила возможности длинного контекста благодаря предварительному и последующему обучению на длинном контексте. Ключевые техники, такие как синтез длинных данных, поэтапное предварительное обучение и многоступенчатая надзорная донастройка, используются для эффективного улучшения производительности на длинном контексте при снижении затрат на обучение. Для поощрения использования моделей с длинным контекстом среди более широкой пользовательской базы мы представляем и открываем исходный код нашей системы вывода. Эта система включает метод экстраполяции длины, который может расширить длину контекста модели как минимум в четыре раза, а то и более, без дополнительного обучения. Для снижения затрат на вывод мы реализуем метод разреженного внимания вместе с оптимизацией предварительной загрузки по частям для сценариев развертывания, а также метод улучшения разреженности для повышения точности. Кроме того, мы подробно описываем наши оптимизации в движке вывода, включая оптимизацию ядра, параллелизм конвейера и оптимизацию планирования, которые значительно улучшают общую производительность вывода. Используя нашу систему вывода, модели Qwen2.5-1M достигают заметного ускорения предварительной загрузки в 3-7 раз в сценариях с 1 миллионом токенов контекста. Эта система предоставляет эффективное и мощное решение для разработки приложений, требующих обработки длинного контекста с использованием моделей с открытым исходным кодом. Серия Qwen2.5-1M включает в себя открытые модели Qwen2.5-7B-Instruct-1M и Qwen2.5-14B-Instruct-1M, а также модель Qwen2.5-Turbo с доступом через API. Оценки показывают, что модели Qwen2.5-1M значительно улучшились в задачах с длинным контекстом, не уступая производительности в сценариях с коротким контекстом. В частности, модель Qwen2.5-14B-Instruct-1M значительно превосходит GPT-4o-mini в задачах с длинным контекстом и поддерживает восемь раз более длинные контексты.