LLMZip : Compression de texte sans perte utilisant des modèles de langage de grande taille
LLMZip: Lossless Text Compression using Large Language Models
June 6, 2023
Auteurs: Chandra Shekhara Kaushik Valmeekam, Krishna Narayanan, Dileep Kalathil, Jean-Francois Chamberland, Srinivas Shakkottai
cs.AI
Résumé
Nous proposons de nouvelles estimations d'une borne supérieure asymptotique sur l'entropie de l'anglais en utilisant le grand modèle de langage LLaMA-7B comme prédicteur du prochain jeton étant donné une fenêtre de jetons passés. Cette estimation est significativement plus faible que les estimations actuellement disponibles dans cover1978convergent et lutati2023focus. Un sous-produit naturel est un algorithme de compression sans perte de texte anglais qui combine la prédiction du grand modèle de langage avec un schéma de compression sans perte. Les résultats préliminaires d'expériences limitées suggèrent que notre schéma surpasse les méthodes de compression de texte de pointe telles que BSC, ZPAQ et paq8h.
English
We provide new estimates of an asymptotic upper bound on the entropy of
English using the large language model LLaMA-7B as a predictor for the next
token given a window of past tokens. This estimate is significantly smaller
than currently available estimates in cover1978convergent,
lutati2023focus. A natural byproduct is an algorithm for lossless
compression of English text which combines the prediction from the large
language model with a lossless compression scheme. Preliminary results from
limited experiments suggest that our scheme outperforms state-of-the-art text
compression schemes such as BSC, ZPAQ, and paq8h.