QwenLong-CPRS: Rumo a LLMs Infinitas com Otimização Dinâmica de Contexto

Resumo

Este relatório técnico apresenta o QwenLong-CPRS, uma estrutura de compressão de contexto projetada para otimização explícita de contextos longos, abordando o custo computacional proibitivo durante a etapa de preenchimento prévio e a degradação de desempenho "perdido no meio" dos modelos de linguagem de grande escala (LLMs) durante o processamento de sequências longas. Implementado por meio de um novo mecanismo de otimização dinâmica de contexto, o QwenLong-CPRS permite a compressão de contexto em múltiplas granularidades guiada por instruções em linguagem natural, alcançando tanto ganhos de eficiência quanto melhorias de desempenho. Evoluído da série de arquiteturas Qwen, o QwenLong-CPRS introduz quatro inovações principais: (1) Otimização dinâmica guiada por linguagem natural, (2) Camadas de raciocínio bidirecional para maior consciência de limites, (3) Mecanismos de crítica de tokens com cabeças de modelagem de linguagem, e (4) Inferência paralela em janelas. Avaliações abrangentes em cinco benchmarks (contextos de 4K a 2M palavras) demonstram a tripla eficácia do QwenLong-CPRS: (1) Superioridade consistente sobre outros métodos de gerenciamento de contexto, como RAG e atenção esparsa, tanto em precisão quanto em eficiência. (2) Integração agnóstica à arquitetura com todos os principais LLMs, incluindo GPT-4o, Gemini2.0-pro, Claude3.7-sonnet, DeepSeek-v3 e Qwen2.5-max, alcançando uma compressão de contexto de 21,59 vezes juntamente com ganhos médios de desempenho de 19,15 pontos; (3) Implantado com o Qwen2.5-32B-Instruct, o QwenLong-CPRS supera os principais LLMs proprietários em 4,85 e 10,88 pontos no Ruler-128K e InfiniteBench, estabelecendo um novo desempenho de estado da arte (SOTA).

English

This technical report presents QwenLong-CPRS, a context compression framework designed for explicit long-context optimization, addressing prohibitive computation overhead during the prefill stage and the "lost in the middle" performance degradation of large language models (LLMs) during long sequence processing. Implemented through a novel dynamic context optimization mechanism, QwenLong-CPRS enables multi-granularity context compression guided by natural language instructions, achieving both efficiency gains and improved performance. Evolved from the Qwen architecture series, QwenLong-CPRS introduces four key innovations: (1) Natural language-guided dynamic optimization, (2) Bidirectional reasoning layers for enhanced boundary awareness, (3) Token critic mechanisms with language modeling heads, and (4) Window-parallel inference. Comprehensive evaluations across five benchmarks (4K-2M word contexts) demonstrate QwenLong-CPRS's threefold effectiveness: (1) Consistent superiority over other context management methods like RAG and sparse attention in both accuracy and efficiency. (2) Architecture-agnostic integration with all flagship LLMs, including GPT-4o, Gemini2.0-pro, Claude3.7-sonnet, DeepSeek-v3, and Qwen2.5-max, achieves 21.59times context compression alongside 19.15-point average performance gains; (3) Deployed with Qwen2.5-32B-Instruct, QwenLong-CPRS surpasses leading proprietary LLMs by 4.85 and 10.88 points on Ruler-128K and InfiniteBench, establishing new SOTA performance.

QwenLong-CPRS: Rumo a LLMs Infinitas com Otimização Dinâmica de Contexto

QwenLong-CPRS: Towards infty-LLMs with Dynamic Context Optimization

Resumo

Support