LLMZip: Verlustfreie Textkompression mit großen Sprachmodellen
LLMZip: Lossless Text Compression using Large Language Models
June 6, 2023
Autoren: Chandra Shekhara Kaushik Valmeekam, Krishna Narayanan, Dileep Kalathil, Jean-Francois Chamberland, Srinivas Shakkottai
cs.AI
Zusammenfassung
Wir liefern neue Schätzungen einer asymptotischen oberen Schranke für die Entropie der englischen Sprache unter Verwendung des großen Sprachmodells LLaMA-7B als Prädiktor für das nächste Token basierend auf einem Fenster vergangener Tokens. Diese Schätzung ist signifikant kleiner als die derzeit verfügbaren Schätzungen in cover1978convergent und lutati2023focus. Ein natürliches Nebenprodukt ist ein Algorithmus für die verlustfreie Kompression englischer Texte, der die Vorhersage des großen Sprachmodells mit einem verlustfreien Kompressionsschema kombiniert. Vorläufige Ergebnisse aus begrenzten Experimenten deuten darauf hin, dass unser Schema state-of-the-art Textkompressionsverfahren wie BSC, ZPAQ und paq8h übertrifft.
English
We provide new estimates of an asymptotic upper bound on the entropy of
English using the large language model LLaMA-7B as a predictor for the next
token given a window of past tokens. This estimate is significantly smaller
than currently available estimates in cover1978convergent,
lutati2023focus. A natural byproduct is an algorithm for lossless
compression of English text which combines the prediction from the large
language model with a lossless compression scheme. Preliminary results from
limited experiments suggest that our scheme outperforms state-of-the-art text
compression schemes such as BSC, ZPAQ, and paq8h.