Compression de 1568 tokens en un seul vecteur et retour : explorer les limites de la capacité des espaces d'embedding

papers.abstract

Une série de travaux récents aborde le problème de la compression de séquences de tokens en une séquence plus courte de vecteurs à valeurs réelles, utilisés comme entrées à la place des embeddings de tokens ou du cache clé-valeur. Ces approches permettent de réduire la quantité de calcul dans les modèles de langage existants. Bien qu'elles s'appuient sur des modèles puissants comme encodeurs, le taux de compression maximal sans perte atteignable ne dépasse généralement pas x10. Ce fait est particulièrement intriguant car, en théorie, la capacité d'information maximale des grands vecteurs à valeurs réelles est bien supérieure aux taux présentés, même pour une précision de 16 bits et une taille de vecteur modeste. Dans ce travail, nous explorons les limites de la compression en remplaçant l'encodeur par une procédure d'optimisation par échantillon. Nous montrons que des vecteurs avec des taux de compression allant jusqu'à x1500 existent, ce qui met en évidence un écart de deux ordres de grandeur entre les solutions existantes et celles pratiquement réalisables. De plus, nous démontrons empiriquement que les limites de compression ne sont pas déterminées par la longueur de l'entrée, mais par la quantité d'incertitude à réduire, à savoir la perte d'entropie croisée sur cette séquence sans aucun conditionnement. Les limites obtenues soulignent l'écart substantiel entre la capacité théorique des embeddings d'entrée et leur utilisation pratique, suggérant un potentiel d'optimisation significatif dans la conception des modèles.

English

A range of recent works addresses the problem of compression of sequence of tokens into a shorter sequence of real-valued vectors to be used as inputs instead of token embeddings or key-value cache. These approaches allow to reduce the amount of compute in existing language models. Despite relying on powerful models as encoders, the maximum attainable lossless compression ratio is typically not higher than x10. This fact is highly intriguing because, in theory, the maximum information capacity of large real-valued vectors is far beyond the presented rates even for 16-bit precision and a modest vector size. In this work, we explore the limits of compression by replacing the encoder with a per-sample optimization procedure. We show that vectors with compression ratios up to x1500 exist, which highlights two orders of magnitude gap between existing and practically attainable solutions. Furthermore, we empirically show that the compression limits are determined not by the length of the input but by the amount of uncertainty to be reduced, namely, the cross-entropy loss on this sequence without any conditioning. The obtained limits highlight the substantial gap between the theoretical capacity of input embeddings and their practical utilization, suggesting significant room for optimization in model design.

Compression de 1568 tokens en un seul vecteur et retour : explorer les limites de la capacité des espaces d'embedding

Cramming 1568 Tokens into a Single Vector and Back Again: Exploring the Limits of Embedding Space Capacity

papers.abstract

Support