InfiniPot: Elaborazione del Contesto Infinito su LLM con Memoria Limitata
InfiniPot: Infinite Context Processing on Memory-Constrained LLMs
October 2, 2024
Autori: Minsoo Kim, Kyuhong Shim, Jungwook Choi, Simyung Chang
cs.AI
Abstract
Gestire contesti di input lunghi rimane una sfida significativa per i Grandi Modelli Linguistici (LLM), in particolare in ambienti con risorse limitate come i dispositivi mobili. Il nostro lavoro mira ad affrontare questa limitazione presentando InfiniPot, un nuovo framework di controllo della cache KV progettato per consentire ai LLM pre-addestrati di gestire sequenze estese entro vincoli di memoria fissi in modo efficiente, senza richiedere ulteriore addestramento. InfiniPot sfrutta la Distillazione Continua del Contesto (CCD), un processo iterativo che comprime e conserva informazioni essenziali attraverso nuove metriche di importanza, mantenendo efficacemente i dati critici anche senza accesso al contesto futuro. Le nostre valutazioni esaustive indicano che InfiniPot supera significativamente i modelli addestrati per contesti lunghi in varie attività di NLP, dimostrandone l'efficacia e la versatilità. Questo lavoro rappresenta un notevole progresso verso la resa dei LLM applicabili a una gamma più ampia di scenari reali.
English
Handling long input contexts remains a significant challenge for Large
Language Models (LLMs), particularly in resource-constrained environments such
as mobile devices. Our work aims to address this limitation by introducing
InfiniPot, a novel KV cache control framework designed to enable pre-trained
LLMs to manage extensive sequences within fixed memory constraints efficiently,
without requiring additional training. InfiniPot leverages Continual Context
Distillation (CCD), an iterative process that compresses and retains essential
information through novel importance metrics, effectively maintaining critical
data even without access to future context. Our comprehensive evaluations
indicate that InfiniPot significantly outperforms models trained for long
contexts in various NLP tasks, establishing its efficacy and versatility. This
work represents a substantial advancement toward making LLMs applicable to a
broader range of real-world scenarios.