Языковые модели являются инъективными и, следовательно, обратимыми.

Аннотация

Компоненты трансформаторов, такие как нелинейные функции активации и нормализация, по своей природе неинъективны, что предполагает возможность отображения разных входных данных в один и тот же выход, что препятствует точному восстановлению входных данных из представлений модели. В данной работе мы оспариваем эту точку зрения. Во-первых, мы математически доказываем, что языковые модели на основе трансформаторов, отображающие дискретные входные последовательности в соответствующие последовательности непрерывных представлений, являются инъективными и, следовательно, сохраняют информацию без потерь — свойство, которое устанавливается при инициализации и сохраняется в процессе обучения. Во-вторых, мы подтверждаем этот результат эмпирически, проведя миллиарды тестов на коллизии для шести современных языковых моделей, и не наблюдаем ни одного случая коллизии. В-третьих, мы операционализируем инъективность: представляем SipIt — первый алгоритм, который гарантированно и эффективно восстанавливает точный входной текст из скрытых активаций, обеспечивая линейное время выполнения и демонстрируя точную обратимость на практике. В целом, наша работа устанавливает инъективность как фундаментальное и применимое свойство языковых моделей, имеющее прямое значение для прозрачности, интерпретируемости и безопасного развертывания.

English

Transformer components such as non-linear activations and normalization are inherently non-injective, suggesting that different inputs could map to the same output and prevent exact recovery of the input from a model's representations. In this paper, we challenge this view. First, we prove mathematically that transformer language models mapping discrete input sequences to their corresponding sequence of continuous representations are injective and therefore lossless, a property established at initialization and preserved during training. Second, we confirm this result empirically through billions of collision tests on six state-of-the-art language models, and observe no collisions. Third, we operationalize injectivity: we introduce SipIt, the first algorithm that provably and efficiently reconstructs the exact input text from hidden activations, establishing linear-time guarantees and demonstrating exact invertibility in practice. Overall, our work establishes injectivity as a fundamental and exploitable property of language models, with direct implications for transparency, interpretability, and safe deployment.

Языковые модели являются инъективными и, следовательно, обратимыми.

Language Models are Injective and Hence Invertible

Аннотация

Support