Языковые модели являются инъективными и, следовательно, обратимыми.
Language Models are Injective and Hence Invertible
October 17, 2025
Авторы: Giorgos Nikolaou, Tommaso Mencattini, Donato Crisostomi, Andrea Santilli, Yannis Panagakis, Emanuele Rodola'
cs.AI
Аннотация
Компоненты трансформаторов, такие как нелинейные функции активации и нормализация, по своей природе неинъективны, что предполагает возможность отображения разных входных данных в один и тот же выход, что препятствует точному восстановлению входных данных из представлений модели. В данной работе мы оспариваем эту точку зрения. Во-первых, мы математически доказываем, что языковые модели на основе трансформаторов, отображающие дискретные входные последовательности в соответствующие последовательности непрерывных представлений, являются инъективными и, следовательно, сохраняют информацию без потерь — свойство, которое устанавливается при инициализации и сохраняется в процессе обучения. Во-вторых, мы подтверждаем этот результат эмпирически, проведя миллиарды тестов на коллизии для шести современных языковых моделей, и не наблюдаем ни одного случая коллизии. В-третьих, мы операционализируем инъективность: представляем SipIt — первый алгоритм, который гарантированно и эффективно восстанавливает точный входной текст из скрытых активаций, обеспечивая линейное время выполнения и демонстрируя точную обратимость на практике. В целом, наша работа устанавливает инъективность как фундаментальное и применимое свойство языковых моделей, имеющее прямое значение для прозрачности, интерпретируемости и безопасного развертывания.
English
Transformer components such as non-linear activations and normalization are
inherently non-injective, suggesting that different inputs could map to the
same output and prevent exact recovery of the input from a model's
representations. In this paper, we challenge this view. First, we prove
mathematically that transformer language models mapping discrete input
sequences to their corresponding sequence of continuous representations are
injective and therefore lossless, a property established at initialization and
preserved during training. Second, we confirm this result empirically through
billions of collision tests on six state-of-the-art language models, and
observe no collisions. Third, we operationalize injectivity: we introduce
SipIt, the first algorithm that provably and efficiently reconstructs the exact
input text from hidden activations, establishing linear-time guarantees and
demonstrating exact invertibility in practice. Overall, our work establishes
injectivity as a fundamental and exploitable property of language models, with
direct implications for transparency, interpretability, and safe deployment.