InfiniPot: Elaborazione del Contesto Infinito su LLM con Memoria Limitata

Abstract

Gestire contesti di input lunghi rimane una sfida significativa per i Grandi Modelli Linguistici (LLM), in particolare in ambienti con risorse limitate come i dispositivi mobili. Il nostro lavoro mira ad affrontare questa limitazione presentando InfiniPot, un nuovo framework di controllo della cache KV progettato per consentire ai LLM pre-addestrati di gestire sequenze estese entro vincoli di memoria fissi in modo efficiente, senza richiedere ulteriore addestramento. InfiniPot sfrutta la Distillazione Continua del Contesto (CCD), un processo iterativo che comprime e conserva informazioni essenziali attraverso nuove metriche di importanza, mantenendo efficacemente i dati critici anche senza accesso al contesto futuro. Le nostre valutazioni esaustive indicano che InfiniPot supera significativamente i modelli addestrati per contesti lunghi in varie attività di NLP, dimostrandone l'efficacia e la versatilità. Questo lavoro rappresenta un notevole progresso verso la resa dei LLM applicabili a una gamma più ampia di scenari reali.

English

Handling long input contexts remains a significant challenge for Large Language Models (LLMs), particularly in resource-constrained environments such as mobile devices. Our work aims to address this limitation by introducing InfiniPot, a novel KV cache control framework designed to enable pre-trained LLMs to manage extensive sequences within fixed memory constraints efficiently, without requiring additional training. InfiniPot leverages Continual Context Distillation (CCD), an iterative process that compresses and retains essential information through novel importance metrics, effectively maintaining critical data even without access to future context. Our comprehensive evaluations indicate that InfiniPot significantly outperforms models trained for long contexts in various NLP tasks, establishing its efficacy and versatility. This work represents a substantial advancement toward making LLMs applicable to a broader range of real-world scenarios.

InfiniPot: Elaborazione del Contesto Infinito su LLM con Memoria Limitata

InfiniPot: Infinite Context Processing on Memory-Constrained LLMs

Abstract

Support