QwenLong-CPRS: На пути к бесконечным языковым моделям с динамической оптимизацией контекста

Аннотация

В данном техническом отчете представлен QwenLong-CPRS — фреймворк для сжатия контекста, разработанный для явной оптимизации работы с длинными контекстами, который решает проблему чрезмерных вычислительных затрат на этапе предварительного заполнения и снижения производительности крупных языковых моделей (LLM) при обработке длинных последовательностей, известного как "потеря в середине". Реализованный с использованием нового механизма динамической оптимизации контекста, QwenLong-CPRS обеспечивает сжатие контекста на нескольких уровнях детализации, управляемое инструкциями на естественном языке, что приводит как к повышению эффективности, так и к улучшению производительности. Развивая архитектуру серии Qwen, QwenLong-CPRS вводит четыре ключевых инновации: (1) Динамическую оптимизацию, управляемую естественным языком, (2) Двунаправленные слои рассуждений для улучшения осознания границ контекста, (3) Механизмы критики токенов с использованием языковых моделей и (4) Параллельный вывод в рамках окон. Всесторонние оценки на пяти бенчмарках (контексты от 4K до 2M слов) демонстрируют тройную эффективность QwenLong-CPRS: (1) Постоянное превосходство над другими методами управления контекстом, такими как RAG и разреженное внимание, как по точности, так и по эффективности. (2) Архитектурно-независимая интеграция со всеми ведущими LLM, включая GPT-4o, Gemini2.0-pro, Claude3.7-sonnet, DeepSeek-v3 и Qwen2.5-max, обеспечивает сжатие контекста в 21.59 раз при среднем улучшении производительности на 19.15 пунктов. (3) При использовании с Qwen2.5-32B-Instruct, QwenLong-CPRS превосходит ведущие проприетарные LLM на 4.85 и 10.88 пунктов на бенчмарках Ruler-128K и InfiniteBench, устанавливая новые рекорды SOTA.

English

This technical report presents QwenLong-CPRS, a context compression framework designed for explicit long-context optimization, addressing prohibitive computation overhead during the prefill stage and the "lost in the middle" performance degradation of large language models (LLMs) during long sequence processing. Implemented through a novel dynamic context optimization mechanism, QwenLong-CPRS enables multi-granularity context compression guided by natural language instructions, achieving both efficiency gains and improved performance. Evolved from the Qwen architecture series, QwenLong-CPRS introduces four key innovations: (1) Natural language-guided dynamic optimization, (2) Bidirectional reasoning layers for enhanced boundary awareness, (3) Token critic mechanisms with language modeling heads, and (4) Window-parallel inference. Comprehensive evaluations across five benchmarks (4K-2M word contexts) demonstrate QwenLong-CPRS's threefold effectiveness: (1) Consistent superiority over other context management methods like RAG and sparse attention in both accuracy and efficiency. (2) Architecture-agnostic integration with all flagship LLMs, including GPT-4o, Gemini2.0-pro, Claude3.7-sonnet, DeepSeek-v3, and Qwen2.5-max, achieves 21.59times context compression alongside 19.15-point average performance gains; (3) Deployed with Qwen2.5-32B-Instruct, QwenLong-CPRS surpasses leading proprietary LLMs by 4.85 and 10.88 points on Ruler-128K and InfiniteBench, establishing new SOTA performance.