LLMZip: Compressione Lossless del Testo Utilizzando Modelli Linguistici di Grandi Dimensioni
LLMZip: Lossless Text Compression using Large Language Models
June 6, 2023
Autori: Chandra Shekhara Kaushik Valmeekam, Krishna Narayanan, Dileep Kalathil, Jean-Francois Chamberland, Srinivas Shakkottai
cs.AI
Abstract
Forniamo nuove stime di un limite superiore asintotico per l'entropia dell'inglese utilizzando il modello linguistico su larga scala LLaMA-7B come predittore per il token successivo dato una finestra di token precedenti. Questa stima è significativamente più piccola rispetto alle stime attualmente disponibili in cover1978convergent e lutati2023focus. Un sottoprodotto naturale è un algoritmo per la compressione senza perdita di dati di testi in inglese che combina la previsione del modello linguistico su larga scala con uno schema di compressione senza perdita. I risultati preliminari di esperimenti limitati suggeriscono che il nostro schema supera gli schemi di compressione testuale all'avanguardia come BSC, ZPAQ e paq8h.
English
We provide new estimates of an asymptotic upper bound on the entropy of
English using the large language model LLaMA-7B as a predictor for the next
token given a window of past tokens. This estimate is significantly smaller
than currently available estimates in cover1978convergent,
lutati2023focus. A natural byproduct is an algorithm for lossless
compression of English text which combines the prediction from the large
language model with a lossless compression scheme. Preliminary results from
limited experiments suggest that our scheme outperforms state-of-the-art text
compression schemes such as BSC, ZPAQ, and paq8h.