LLMLingua-2: Datendestillation zur effizienten und treuen komprimierung von aufgabenagnostischen Anweisungen
LLMLingua-2: Data Distillation for Efficient and Faithful Task-Agnostic Prompt Compression
March 19, 2024
Autoren: Zhuoshi Pan, Qianhui Wu, Huiqiang Jiang, Menglin Xia, Xufang Luo, Jue Zhang, Qingwei Lin, Victor Rühle, Yuqing Yang, Chin-Yew Lin, H. Vicky Zhao, Lili Qiu, Dongmei Zhang
cs.AI
Zusammenfassung
Dieses Papier konzentriert sich auf die aufgabenneutrale Komprimierung von Anweisungen zur Verbesserung der Generalisierbarkeit und Effizienz. Angesichts der Redundanz in natürlicher Sprache komprimieren bestehende Ansätze Anweisungen, indem sie Token oder lexikalische Einheiten basierend auf ihrer Informationsentropie entfernen, die aus einem kausalen Sprachmodell wie LLaMa-7B gewonnen wird. Die Herausforderung besteht darin, dass die Informationsentropie möglicherweise kein optimales Kompressionsmaß ist: (i) es nutzt nur unidirektionale Kontexte und kann möglicherweise nicht alle für die Anweisungskomprimierung erforderlichen wesentlichen Informationen erfassen; (ii) es ist nicht auf das Ziel der Anweisungskomprimierung ausgerichtet.
Um diese Probleme anzugehen, schlagen wir ein Verfahren zur Datenverdichtung vor, um Wissen aus einem LLM abzuleiten, um Anweisungen zu komprimieren, ohne wichtige Informationen zu verlieren, und führen gleichzeitig einen extraktiven Textkomprimierungsdatensatz ein. Wir formulieren die Anweisungskomprimierung als ein Token-Klassifizierungsproblem, um die Treue der komprimierten Anweisung zur Originalanweisung zu gewährleisten, und verwenden einen Transformer-Encoder als Basismodell, um alle wesentlichen Informationen für die Anweisungskomprimierung aus dem vollständigen bidirektionalen Kontext zu erfassen. Unser Ansatz führt zu geringerer Latenz, indem er das Kompressionsziel explizit mit kleineren Modellen wie XLM-RoBERTa-large und mBERT lernt.
Wir evaluieren unsere Methode an sowohl in-domain als auch out-of-domain Datensätzen, einschließlich MeetingBank, LongBench, ZeroScrolls, GSM8K und BBH. Trotz seiner geringen Größe zeigt unser Modell signifikante Leistungssteigerungen gegenüber starken Baselines und demonstriert robuste Generalisierungsfähigkeiten über verschiedene LLMs hinweg. Darüber hinaus ist unser Modell 3x-6x schneller als bestehende Methoden zur Anweisungskomprimierung, während es die End-to-End-Latenz um das 1,6- bis 2,9-fache beschleunigt, bei Kompressionsverhältnissen von 2x-5x.
English
This paper focuses on task-agnostic prompt compression for better
generalizability and efficiency. Considering the redundancy in natural
language, existing approaches compress prompts by removing tokens or lexical
units according to their information entropy obtained from a causal language
model such as LLaMa-7B. The challenge is that information entropy may be a
suboptimal compression metric: (i) it only leverages unidirectional context and
may fail to capture all essential information needed for prompt compression;
(ii) it is not aligned with the prompt compression objective.
To address these issues, we propose a data distillation procedure to derive
knowledge from an LLM to compress prompts without losing crucial information,
and meantime, introduce an extractive text compression dataset. We formulate
prompt compression as a token classification problem to guarantee the
faithfulness of the compressed prompt to the original one, and use a
Transformer encoder as the base architecture to capture all essential
information for prompt compression from the full bidirectional context. Our
approach leads to lower latency by explicitly learning the compression
objective with smaller models such as XLM-RoBERTa-large and mBERT.
We evaluate our method on both in-domain and out-of-domain datasets,
including MeetingBank, LongBench, ZeroScrolls, GSM8K, and BBH. Despite its
small size, our model shows significant performance gains over strong baselines
and demonstrates robust generalization ability across different LLMs.
Additionally, our model is 3x-6x faster than existing prompt compression
methods, while accelerating the end-to-end latency by 1.6x-2.9x with
compression ratios of 2x-5x.Summary
AI-Generated Summary