Упаковка 1568 токенов в один вектор и обратно: исследование пределов емкости пространства эмбеддингов
Cramming 1568 Tokens into a Single Vector and Back Again: Exploring the Limits of Embedding Space Capacity
February 18, 2025
Авторы: Yuri Kuratov, Mikhail Arkhipov, Aydar Bulatov, Mikhail Burtsev
cs.AI
Аннотация
Ряд недавних работ посвящен проблеме сжатия последовательности токенов в более короткую последовательность вещественных векторов, которые используются в качестве входных данных вместо встраиваний токенов или кэша ключ-значение. Эти подходы позволяют сократить объем вычислений в существующих языковых моделях. Несмотря на использование мощных моделей в качестве кодировщиков, максимально достижимый коэффициент сжатия без потерь обычно не превышает x10. Этот факт вызывает значительный интерес, поскольку, теоретически, максимальная информационная емкость больших вещественных векторов значительно превышает представленные значения даже для 16-битной точности и скромного размера вектора. В данной работе мы исследуем пределы сжатия, заменяя кодировщик процедурой оптимизации для каждого образца. Мы показываем, что существуют векторы с коэффициентами сжатия до x1500, что подчеркивает разрыв в два порядка величины между существующими и практически достижимыми решениями. Более того, мы эмпирически демонстрируем, что пределы сжатия определяются не длиной входных данных, а объемом неопределенности, которую необходимо уменьшить, а именно, кросс-энтропийной ошибкой на этой последовательности без какого-либо кондиционирования. Полученные пределы подчеркивают существенный разрыв между теоретической емкостью входных встраиваний и их практическим использованием, указывая на значительный потенциал для оптимизации в проектировании моделей.
English
A range of recent works addresses the problem of compression of sequence of
tokens into a shorter sequence of real-valued vectors to be used as inputs
instead of token embeddings or key-value cache. These approaches allow to
reduce the amount of compute in existing language models. Despite relying on
powerful models as encoders, the maximum attainable lossless compression ratio
is typically not higher than x10. This fact is highly intriguing because, in
theory, the maximum information capacity of large real-valued vectors is far
beyond the presented rates even for 16-bit precision and a modest vector size.
In this work, we explore the limits of compression by replacing the encoder
with a per-sample optimization procedure. We show that vectors with compression
ratios up to x1500 exist, which highlights two orders of magnitude gap between
existing and practically attainable solutions. Furthermore, we empirically show
that the compression limits are determined not by the length of the input but
by the amount of uncertainty to be reduced, namely, the cross-entropy loss on
this sequence without any conditioning. The obtained limits highlight the
substantial gap between the theoretical capacity of input embeddings and their
practical utilization, suggesting significant room for optimization in model
design.Summary
AI-Generated Summary