Het trainen van grote taalmodellen (LLMs) op neurale gecomprimeerde tekst

Samenvatting

In dit artikel onderzoeken we het idee om grote taalmodellen (LLMs) te trainen op sterk gecomprimeerde tekst. Terwijl standaard subwoord-tokenizers tekst slechts in beperkte mate comprimeren, kunnen neurale tekstcompressoren veel hogere compressiepercentages bereiken. Als het mogelijk zou zijn om LLMs direct op neurale gecomprimeerde tekst te trainen, zou dit voordelen bieden op het gebied van trainings- en serverefficiëntie, evenals een eenvoudigere verwerking van lange tekstsegmenten. Het belangrijkste obstakel voor dit doel is dat sterke compressie vaak ondoorzichtige uitvoer produceert die niet geschikt is voor leren. In het bijzonder constateren we dat tekst die naïef is gecomprimeerd via Arithmetic Coding niet gemakkelijk leerbaar is voor LLMs. Om dit te overwinnen, stellen we Equal-Info Windows voor, een nieuwe compressietechniek waarbij tekst wordt gesegmenteerd in blokken die elk tot dezelfde bitlengte worden gecomprimeerd. Met deze methode demonstreren we effectief leren op neurale gecomprimeerde tekst dat verbetert met schaal, en dat de byte-level benchmarks ruimschoots overtreft op het gebied van perplexiteit en inferentiesnelheid. Hoewel onze methode een slechtere perplexiteit oplevert dan subwoord-tokenizers voor modellen die met hetzelfde aantal parameters zijn getraind, heeft het het voordeel van kortere sequentielengtes. Kortere sequentielengtes vereisen minder autoregressieve generatiestappen en verminderen de latentie. Tot slot bieden we een uitgebreide analyse van de eigenschappen die bijdragen aan leerbaarheid, en doen we concrete suggesties voor hoe de prestaties van high-compression tokenizers verder kunnen worden verbeterd.

English

In this paper, we explore the idea of training large language models (LLMs) over highly compressed text. While standard subword tokenizers compress text by a small factor, neural text compressors can achieve much higher rates of compression. If it were possible to train LLMs directly over neurally compressed text, this would confer advantages in training and serving efficiency, as well as easier handling of long text spans. The main obstacle to this goal is that strong compression tends to produce opaque outputs that are not well-suited for learning. In particular, we find that text na\"ively compressed via Arithmetic Coding is not readily learnable by LLMs. To overcome this, we propose Equal-Info Windows, a novel compression technique whereby text is segmented into blocks that each compress to the same bit length. Using this method, we demonstrate effective learning over neurally compressed text that improves with scale, and outperforms byte-level baselines by a wide margin on perplexity and inference speed benchmarks. While our method delivers worse perplexity than subword tokenizers for models trained with the same parameter count, it has the benefit of shorter sequence lengths. Shorter sequence lengths require fewer autoregressive generation steps, and reduce latency. Finally, we provide extensive analysis of the properties that contribute to learnability, and offer concrete suggestions for how to further improve the performance of high-compression tokenizers.

Het trainen van grote taalmodellen (LLMs) op neurale gecomprimeerde tekst

Training LLMs over Neurally Compressed Text

Samenvatting

Support