Упаковка 1568 токенов в один вектор и обратно: исследование пределов емкости пространства эмбеддингов

Аннотация

Ряд недавних работ посвящен проблеме сжатия последовательности токенов в более короткую последовательность вещественных векторов, которые используются в качестве входных данных вместо встраиваний токенов или кэша ключ-значение. Эти подходы позволяют сократить объем вычислений в существующих языковых моделях. Несмотря на использование мощных моделей в качестве кодировщиков, максимально достижимый коэффициент сжатия без потерь обычно не превышает x10. Этот факт вызывает значительный интерес, поскольку, теоретически, максимальная информационная емкость больших вещественных векторов значительно превышает представленные значения даже для 16-битной точности и скромного размера вектора. В данной работе мы исследуем пределы сжатия, заменяя кодировщик процедурой оптимизации для каждого образца. Мы показываем, что существуют векторы с коэффициентами сжатия до x1500, что подчеркивает разрыв в два порядка величины между существующими и практически достижимыми решениями. Более того, мы эмпирически демонстрируем, что пределы сжатия определяются не длиной входных данных, а объемом неопределенности, которую необходимо уменьшить, а именно, кросс-энтропийной ошибкой на этой последовательности без какого-либо кондиционирования. Полученные пределы подчеркивают существенный разрыв между теоретической емкостью входных встраиваний и их практическим использованием, указывая на значительный потенциал для оптимизации в проектировании моделей.

English

A range of recent works addresses the problem of compression of sequence of tokens into a shorter sequence of real-valued vectors to be used as inputs instead of token embeddings or key-value cache. These approaches allow to reduce the amount of compute in existing language models. Despite relying on powerful models as encoders, the maximum attainable lossless compression ratio is typically not higher than x10. This fact is highly intriguing because, in theory, the maximum information capacity of large real-valued vectors is far beyond the presented rates even for 16-bit precision and a modest vector size. In this work, we explore the limits of compression by replacing the encoder with a per-sample optimization procedure. We show that vectors with compression ratios up to x1500 exist, which highlights two orders of magnitude gap between existing and practically attainable solutions. Furthermore, we empirically show that the compression limits are determined not by the length of the input but by the amount of uncertainty to be reduced, namely, the cross-entropy loss on this sequence without any conditioning. The obtained limits highlight the substantial gap between the theoretical capacity of input embeddings and their practical utilization, suggesting significant room for optimization in model design.

Упаковка 1568 токенов в один вектор и обратно: исследование пределов емкости пространства эмбеддингов

Cramming 1568 Tokens into a Single Vector and Back Again: Exploring the Limits of Embedding Space Capacity

Аннотация

Support