ChatPaper.aiChatPaper

LLMLingua-2 : Distillation de données pour une compression de prompts efficace et fidèle indépendante de la tâche

LLMLingua-2: Data Distillation for Efficient and Faithful Task-Agnostic Prompt Compression

March 19, 2024
papers.authors: Zhuoshi Pan, Qianhui Wu, Huiqiang Jiang, Menglin Xia, Xufang Luo, Jue Zhang, Qingwei Lin, Victor Rühle, Yuqing Yang, Chin-Yew Lin, H. Vicky Zhao, Lili Qiu, Dongmei Zhang
cs.AI

papers.abstract

Cet article se concentre sur la compression de prompts indépendante de la tâche pour une meilleure généralisation et efficacité. Compte tenu de la redondance dans le langage naturel, les approches existantes compressent les prompts en supprimant des tokens ou des unités lexicales selon leur entropie informationnelle obtenue à partir d'un modèle de langage causal tel que LLaMa-7B. Le défi est que l'entropie informationnelle peut être une métrique de compression sous-optimale : (i) elle ne tire parti que du contexte unidirectionnel et peut ne pas capturer toutes les informations essentielles nécessaires à la compression des prompts ; (ii) elle n'est pas alignée avec l'objectif de compression des prompts. Pour résoudre ces problèmes, nous proposons une procédure de distillation de données pour extraire des connaissances d'un modèle de langage (LLM) afin de compresser les prompts sans perdre d'informations cruciales, tout en introduisant un jeu de données de compression de texte extractive. Nous formulons la compression des prompts comme un problème de classification de tokens pour garantir la fidélité du prompt compressé à l'original, et utilisons un encodeur Transformer comme architecture de base pour capturer toutes les informations essentielles pour la compression des prompts à partir du contexte bidirectionnel complet. Notre approche réduit la latence en apprenant explicitement l'objectif de compression avec des modèles plus petits tels que XLM-RoBERTa-large et mBERT. Nous évaluons notre méthode sur des jeux de données intra-domaines et extra-domaines, notamment MeetingBank, LongBench, ZeroScrolls, GSM8K et BBH. Malgré sa petite taille, notre modèle montre des gains de performance significatifs par rapport à des bases de référence solides et démontre une capacité de généralisation robuste à travers différents LLM. De plus, notre modèle est 3 à 6 fois plus rapide que les méthodes de compression de prompts existantes, tout en accélérant la latence end-to-end par un facteur de 1,6 à 2,9 avec des taux de compression de 2 à 5 fois.
English
This paper focuses on task-agnostic prompt compression for better generalizability and efficiency. Considering the redundancy in natural language, existing approaches compress prompts by removing tokens or lexical units according to their information entropy obtained from a causal language model such as LLaMa-7B. The challenge is that information entropy may be a suboptimal compression metric: (i) it only leverages unidirectional context and may fail to capture all essential information needed for prompt compression; (ii) it is not aligned with the prompt compression objective. To address these issues, we propose a data distillation procedure to derive knowledge from an LLM to compress prompts without losing crucial information, and meantime, introduce an extractive text compression dataset. We formulate prompt compression as a token classification problem to guarantee the faithfulness of the compressed prompt to the original one, and use a Transformer encoder as the base architecture to capture all essential information for prompt compression from the full bidirectional context. Our approach leads to lower latency by explicitly learning the compression objective with smaller models such as XLM-RoBERTa-large and mBERT. We evaluate our method on both in-domain and out-of-domain datasets, including MeetingBank, LongBench, ZeroScrolls, GSM8K, and BBH. Despite its small size, our model shows significant performance gains over strong baselines and demonstrates robust generalization ability across different LLMs. Additionally, our model is 3x-6x faster than existing prompt compression methods, while accelerating the end-to-end latency by 1.6x-2.9x with compression ratios of 2x-5x.
PDF267December 15, 2024