Rapporto Tecnico Qwen2.5-1MQwen2.5-1M Technical Report
Introduciamo Qwen2.5-1M, una serie di modelli che estendono la lunghezza del contesto a 1 milione di token. Rispetto alla versione precedente da 128K, la serie Qwen2.5-1M ha capacità di lungo contesto significativamente migliorate attraverso pre-training e post-training di lungo contesto. Tecniche chiave come la sintesi di dati lunghi, il pre-training progressivo e il fine-tuning supervisionato a più fasi vengono impiegate per potenziare efficacemente le prestazioni del lungo contesto riducendo i costi di addestramento. Per promuovere l'uso di modelli a lungo contesto tra un pubblico più ampio, presentiamo e rendiamo open-source il nostro framework di inferenza. Questo framework include un metodo di estrapolazione della lunghezza che può espandere le lunghezze del contesto del modello almeno di quattro volte, o anche di più, senza addestramento aggiuntivo. Per ridurre i costi di inferenza, implementiamo un metodo di attenzione sparso insieme all'ottimizzazione di riempimento chunked per scenari di distribuzione e un metodo di raffinamento della sparsetà per migliorare la precisione. Inoltre, dettagliamo le nostre ottimizzazioni nel motore di inferenza, inclusa l'ottimizzazione del kernel, il parallelismo della pipeline e l'ottimizzazione della pianificazione, che migliorano significativamente le prestazioni complessive dell'inferenza. Sfruttando il nostro framework di inferenza, i modelli Qwen2.5-1M ottengono un notevole aumento della velocità di riempimento di 3x a 7x in scenari con 1 milione di token di contesto. Questo framework fornisce una soluzione efficiente e potente per lo sviluppo di applicazioni che richiedono l'elaborazione di lungo contesto utilizzando modelli open-source. La serie Qwen2.5-1M include attualmente i modelli open-source Qwen2.5-7B-Instruct-1M e Qwen2.5-14B-Instruct-1M, nonché il modello Qwen2.5-Turbo accessibile tramite API. Le valutazioni mostrano che i modelli Qwen2.5-1M sono stati notevolmente migliorati nei compiti di lungo contesto senza compromettere le prestazioni nei scenari di breve contesto. In particolare, il modello Qwen2.5-14B-Instruct-1M supera significativamente GPT-4o-mini nei compiti di lungo contesto e supporta contesti otto volte più lunghi.