LLMLingua-2: Datendestillation zur effizienten und treuen komprimierung von aufgabenagnostischen Anweisungen

papers.abstract

Dieses Papier konzentriert sich auf die aufgabenneutrale Komprimierung von Anweisungen zur Verbesserung der Generalisierbarkeit und Effizienz. Angesichts der Redundanz in natürlicher Sprache komprimieren bestehende Ansätze Anweisungen, indem sie Token oder lexikalische Einheiten basierend auf ihrer Informationsentropie entfernen, die aus einem kausalen Sprachmodell wie LLaMa-7B gewonnen wird. Die Herausforderung besteht darin, dass die Informationsentropie möglicherweise kein optimales Kompressionsmaß ist: (i) es nutzt nur unidirektionale Kontexte und kann möglicherweise nicht alle für die Anweisungskomprimierung erforderlichen wesentlichen Informationen erfassen; (ii) es ist nicht auf das Ziel der Anweisungskomprimierung ausgerichtet. Um diese Probleme anzugehen, schlagen wir ein Verfahren zur Datenverdichtung vor, um Wissen aus einem LLM abzuleiten, um Anweisungen zu komprimieren, ohne wichtige Informationen zu verlieren, und führen gleichzeitig einen extraktiven Textkomprimierungsdatensatz ein. Wir formulieren die Anweisungskomprimierung als ein Token-Klassifizierungsproblem, um die Treue der komprimierten Anweisung zur Originalanweisung zu gewährleisten, und verwenden einen Transformer-Encoder als Basismodell, um alle wesentlichen Informationen für die Anweisungskomprimierung aus dem vollständigen bidirektionalen Kontext zu erfassen. Unser Ansatz führt zu geringerer Latenz, indem er das Kompressionsziel explizit mit kleineren Modellen wie XLM-RoBERTa-large und mBERT lernt. Wir evaluieren unsere Methode an sowohl in-domain als auch out-of-domain Datensätzen, einschließlich MeetingBank, LongBench, ZeroScrolls, GSM8K und BBH. Trotz seiner geringen Größe zeigt unser Modell signifikante Leistungssteigerungen gegenüber starken Baselines und demonstriert robuste Generalisierungsfähigkeiten über verschiedene LLMs hinweg. Darüber hinaus ist unser Modell 3x-6x schneller als bestehende Methoden zur Anweisungskomprimierung, während es die End-to-End-Latenz um das 1,6- bis 2,9-fache beschleunigt, bei Kompressionsverhältnissen von 2x-5x.

English

This paper focuses on task-agnostic prompt compression for better generalizability and efficiency. Considering the redundancy in natural language, existing approaches compress prompts by removing tokens or lexical units according to their information entropy obtained from a causal language model such as LLaMa-7B. The challenge is that information entropy may be a suboptimal compression metric: (i) it only leverages unidirectional context and may fail to capture all essential information needed for prompt compression; (ii) it is not aligned with the prompt compression objective. To address these issues, we propose a data distillation procedure to derive knowledge from an LLM to compress prompts without losing crucial information, and meantime, introduce an extractive text compression dataset. We formulate prompt compression as a token classification problem to guarantee the faithfulness of the compressed prompt to the original one, and use a Transformer encoder as the base architecture to capture all essential information for prompt compression from the full bidirectional context. Our approach leads to lower latency by explicitly learning the compression objective with smaller models such as XLM-RoBERTa-large and mBERT. We evaluate our method on both in-domain and out-of-domain datasets, including MeetingBank, LongBench, ZeroScrolls, GSM8K, and BBH. Despite its small size, our model shows significant performance gains over strong baselines and demonstrates robust generalization ability across different LLMs. Additionally, our model is 3x-6x faster than existing prompt compression methods, while accelerating the end-to-end latency by 1.6x-2.9x with compression ratios of 2x-5x.

LLMLingua-2: Datendestillation zur effizienten und treuen komprimierung von aufgabenagnostischen Anweisungen

LLMLingua-2: Data Distillation for Efficient and Faithful Task-Agnostic Prompt Compression

papers.abstract

Support