QwenLong-CPRS: Verso LLM infiniti con Ottimizzazione Dinamica del Contesto

Abstract

Questo rapporto tecnico presenta QwenLong-CPRS, un framework di compressione del contesto progettato per l'ottimizzazione esplicita di contesti lunghi, affrontando l'onere computazionale proibitivo durante la fase di prefill e il degrado delle prestazioni "lost in the middle" dei modelli linguistici di grandi dimensioni (LLM) durante l'elaborazione di sequenze lunghe. Implementato attraverso un innovativo meccanismo di ottimizzazione dinamica del contesto, QwenLong-CPRS consente una compressione del contesto multi-granularità guidata da istruzioni in linguaggio naturale, ottenendo sia guadagni di efficienza che miglioramenti delle prestazioni. Evoluto dalla serie di architetture Qwen, QwenLong-CPRS introduce quattro innovazioni chiave: (1) Ottimizzazione dinamica guidata dal linguaggio naturale, (2) Strati di ragionamento bidirezionale per una maggiore consapevolezza dei confini, (3) Meccanismi di critica dei token con testate di modellazione linguistica e (4) Inferenza parallela a finestre. Valutazioni complete su cinque benchmark (contesti da 4K a 2M parole) dimostrano la triplice efficacia di QwenLong-CPRS: (1) Superiorità costante rispetto ad altri metodi di gestione del contesto come RAG e attenzione sparsa sia in termini di accuratezza che di efficienza. (2) Integrazione agnostica rispetto all'architettura con tutti i principali LLM, tra cui GPT-4o, Gemini2.0-pro, Claude3.7-sonnet, DeepSeek-v3 e Qwen2.5-max, raggiunge una compressione del contesto di 21.59 volte insieme a un miglioramento medio delle prestazioni di 19.15 punti; (3) Implementato con Qwen2.5-32B-Instruct, QwenLong-CPRS supera i principali LLM proprietari di 4.85 e 10.88 punti su Ruler-128K e InfiniteBench, stabilendo nuove prestazioni SOTA.

English

This technical report presents QwenLong-CPRS, a context compression framework designed for explicit long-context optimization, addressing prohibitive computation overhead during the prefill stage and the "lost in the middle" performance degradation of large language models (LLMs) during long sequence processing. Implemented through a novel dynamic context optimization mechanism, QwenLong-CPRS enables multi-granularity context compression guided by natural language instructions, achieving both efficiency gains and improved performance. Evolved from the Qwen architecture series, QwenLong-CPRS introduces four key innovations: (1) Natural language-guided dynamic optimization, (2) Bidirectional reasoning layers for enhanced boundary awareness, (3) Token critic mechanisms with language modeling heads, and (4) Window-parallel inference. Comprehensive evaluations across five benchmarks (4K-2M word contexts) demonstrate QwenLong-CPRS's threefold effectiveness: (1) Consistent superiority over other context management methods like RAG and sparse attention in both accuracy and efficiency. (2) Architecture-agnostic integration with all flagship LLMs, including GPT-4o, Gemini2.0-pro, Claude3.7-sonnet, DeepSeek-v3, and Qwen2.5-max, achieves 21.59times context compression alongside 19.15-point average performance gains; (3) Deployed with Qwen2.5-32B-Instruct, QwenLong-CPRS surpasses leading proprietary LLMs by 4.85 and 10.88 points on Ruler-128K and InfiniteBench, establishing new SOTA performance.

QwenLong-CPRS: Verso LLM infiniti con Ottimizzazione Dinamica del Contesto

QwenLong-CPRS: Towards infty-LLMs with Dynamic Context Optimization

Abstract

Support