LLMZip: Compressão de Texto sem Perdas utilizando Modelos de Linguagem de Grande Escala
LLMZip: Lossless Text Compression using Large Language Models
June 6, 2023
Autores: Chandra Shekhara Kaushik Valmeekam, Krishna Narayanan, Dileep Kalathil, Jean-Francois Chamberland, Srinivas Shakkottai
cs.AI
Resumo
Fornecemos novas estimativas de um limite superior assintótico para a entropia do inglês utilizando o modelo de linguagem de grande escala LLaMA-7B como um preditor para o próximo token, dado uma janela de tokens anteriores. Essa estimativa é significativamente menor do que as atualmente disponíveis em cover1978convergent e lutati2023focus. Um subproduto natural é um algoritmo para compressão sem perdas de texto em inglês que combina a previsão do modelo de linguagem de grande escala com um esquema de compressão sem perdas. Resultados preliminares de experimentos limitados sugerem que nosso esquema supera os esquemas de compressão de texto state-of-the-art, como BSC, ZPAQ e paq8h.
English
We provide new estimates of an asymptotic upper bound on the entropy of
English using the large language model LLaMA-7B as a predictor for the next
token given a window of past tokens. This estimate is significantly smaller
than currently available estimates in cover1978convergent,
lutati2023focus. A natural byproduct is an algorithm for lossless
compression of English text which combines the prediction from the large
language model with a lossless compression scheme. Preliminary results from
limited experiments suggest that our scheme outperforms state-of-the-art text
compression schemes such as BSC, ZPAQ, and paq8h.