LLMZip: 大規模言語モデルを用いたロスレステキスト圧縮
LLMZip: Lossless Text Compression using Large Language Models
June 6, 2023
著者: Chandra Shekhara Kaushik Valmeekam, Krishna Narayanan, Dileep Kalathil, Jean-Francois Chamberland, Srinivas Shakkottai
cs.AI
要旨
我々は、大規模言語モデルLLaMA-7Bを過去のトークンウィンドウに基づく次トークン予測器として用いることで、英語のエントロピーに対する漸近的上界の新たな推定値を提供する。この推定値は、cover1978convergentやlutati2023focusで現在利用可能な推定値よりも大幅に小さい。自然な副産物として、大規模言語モデルの予測と可逆圧縮スキームを組み合わせた英語テキストの可逆圧縮アルゴリズムが得られる。限定的な実験からの予備結果は、我々のスキームがBSC、ZPAQ、paq8hなどの最先端テキスト圧縮スキームを上回る性能を示唆している。
English
We provide new estimates of an asymptotic upper bound on the entropy of
English using the large language model LLaMA-7B as a predictor for the next
token given a window of past tokens. This estimate is significantly smaller
than currently available estimates in cover1978convergent,
lutati2023focus. A natural byproduct is an algorithm for lossless
compression of English text which combines the prediction from the large
language model with a lossless compression scheme. Preliminary results from
limited experiments suggest that our scheme outperforms state-of-the-art text
compression schemes such as BSC, ZPAQ, and paq8h.