ChatPaper.aiChatPaper

LLMZip: 대규모 언어 모델을 활용한 무손실 텍스트 압축

LLMZip: Lossless Text Compression using Large Language Models

June 6, 2023
저자: Chandra Shekhara Kaushik Valmeekam, Krishna Narayanan, Dileep Kalathil, Jean-Francois Chamberland, Srinivas Shakkottai
cs.AI

초록

우리는 대규모 언어 모델 LLaMA-7B를 과거 토큰 윈도우가 주어졌을 때 다음 토큰을 예측하는 도구로 사용하여 영어의 엔트로피에 대한 점근적 상한선의 새로운 추정치를 제시합니다. 이 추정치는 cover1978convergent와 lutati2023focus에서 현재 사용 가능한 추정치보다 상당히 작습니다. 이로부터 자연스럽게 도출된 부산물로, 대규모 언어 모델의 예측과 무손실 압축 기법을 결합한 영어 텍스트의 무손실 압축 알고리즘이 있습니다. 제한된 실험에서 얻은 예비 결과는 우리의 기법이 BSC, ZPAQ, paq8h와 같은 최신 텍스트 압축 기법들을 능가함을 시사합니다.
English
We provide new estimates of an asymptotic upper bound on the entropy of English using the large language model LLaMA-7B as a predictor for the next token given a window of past tokens. This estimate is significantly smaller than currently available estimates in cover1978convergent, lutati2023focus. A natural byproduct is an algorithm for lossless compression of English text which combines the prediction from the large language model with a lossless compression scheme. Preliminary results from limited experiments suggest that our scheme outperforms state-of-the-art text compression schemes such as BSC, ZPAQ, and paq8h.
PDF51December 15, 2024