ChatPaper.aiChatPaper

InfiniteHiP: Estensione del Contesto del Modello Linguistico Fino a 3 Milioni di Token su una Singola GPU

InfiniteHiP: Extending Language Model Context Up to 3 Million Tokens on a Single GPU

February 13, 2025
Autori: Heejun Lee, Geon Park, Jaduk Suh, Sung Ju Hwang
cs.AI

Abstract

Nei moderni modelli di linguaggio di grandi dimensioni (LLM), gestire lunghezze di contesto molto estese presenta significativi problemi poiché causa velocità di inferenza più lente e costi di memoria aumentati. Inoltre, la maggior parte dei LLM pre-addestrati esistenti non riesce a generalizzare oltre le lunghezze delle sequenze di addestramento originali. Per consentire un utilizzo efficiente e pratico del contesto lungo, introduciamo InfiniteHiP, un nuovo e pratico framework di inferenza per LLM che accelera l'elaborazione eliminando dinamicamente i token di contesto non rilevanti attraverso un algoritmo di potatura gerarchica modulare. Il nostro metodo consente anche la generalizzazione a sequenze più lunghe applicando selettivamente vari metodi di aggiustamento RoPE in base ai pattern di attenzione interni ai LLM. Inoltre, spostiamo la cache chiave-valore nella memoria dell'host durante l'inferenza, riducendo significativamente la pressione sulla memoria della GPU. Di conseguenza, InfiniteHiP consente l'elaborazione fino a 3 milioni di token su una singola GPU L40s da 48 GB - 3 volte più grande - senza alcuna perdita permanente di informazioni di contesto. Il nostro framework raggiunge un aumento di velocità di 18,95 volte nella decodifica dell'attenzione per un contesto di 1 milione di token senza richiedere ulteriore addestramento. Implementiamo il nostro metodo nel framework SGLang e ne dimostriamo l'efficacia e la praticità attraverso valutazioni approfondite.
English
In modern large language models (LLMs), handling very long context lengths presents significant challenges as it causes slower inference speeds and increased memory costs. Additionally, most existing pre-trained LLMs fail to generalize beyond their original training sequence lengths. To enable efficient and practical long-context utilization, we introduce InfiniteHiP, a novel, and practical LLM inference framework that accelerates processing by dynamically eliminating irrelevant context tokens through a modular hierarchical token pruning algorithm. Our method also allows generalization to longer sequences by selectively applying various RoPE adjustment methods according to the internal attention patterns within LLMs. Furthermore, we offload the key-value cache to host memory during inference, significantly reducing GPU memory pressure. As a result, InfiniteHiP enables the processing of up to 3 million tokens on a single L40s 48GB GPU -- 3x larger -- without any permanent loss of context information. Our framework achieves an 18.95x speedup in attention decoding for a 1 million token context without requiring additional training. We implement our method in the SGLang framework and demonstrate its effectiveness and practicality through extensive evaluations.

Summary

AI-Generated Summary

PDF1496February 14, 2025