Les modèles de langage sont injectifs et donc inversibles.
Language Models are Injective and Hence Invertible
October 17, 2025
papers.authors: Giorgos Nikolaou, Tommaso Mencattini, Donato Crisostomi, Andrea Santilli, Yannis Panagakis, Emanuele Rodola'
cs.AI
papers.abstract
Les composants des modèles de type Transformer, tels que les activations non linéaires et la normalisation, sont intrinsèquement non injectifs, ce qui suggère que différentes entrées pourraient être mappées sur la même sortie, empêchant ainsi la récupération exacte de l'entrée à partir des représentations du modèle. Dans cet article, nous remettons en question cette perspective. Premièrement, nous démontrons mathématiquement que les modèles de langage Transformer, qui mappent des séquences d'entrées discrètes à leurs séquences de représentations continues correspondantes, sont injectifs et donc sans perte, une propriété établie à l'initialisation et préservée pendant l'entraînement. Deuxièmement, nous confirmons ce résultat empiriquement à travers des milliards de tests de collision sur six modèles de langage de pointe, et n'observons aucune collision. Troisièmement, nous opérationnalisons l'injectivité : nous introduisons SipIt, le premier algorithme qui reconstruit de manière prouvée et efficace le texte d'entrée exact à partir des activations cachées, établissant des garanties en temps linéaire et démontrant une inversibilité exacte en pratique. Globalement, notre travail établit l'injectivité comme une propriété fondamentale et exploitable des modèles de langage, avec des implications directes pour la transparence, l'interprétabilité et le déploiement sécurisé.
English
Transformer components such as non-linear activations and normalization are
inherently non-injective, suggesting that different inputs could map to the
same output and prevent exact recovery of the input from a model's
representations. In this paper, we challenge this view. First, we prove
mathematically that transformer language models mapping discrete input
sequences to their corresponding sequence of continuous representations are
injective and therefore lossless, a property established at initialization and
preserved during training. Second, we confirm this result empirically through
billions of collision tests on six state-of-the-art language models, and
observe no collisions. Third, we operationalize injectivity: we introduce
SipIt, the first algorithm that provably and efficiently reconstructs the exact
input text from hidden activations, establishing linear-time guarantees and
demonstrating exact invertibility in practice. Overall, our work establishes
injectivity as a fundamental and exploitable property of language models, with
direct implications for transparency, interpretability, and safe deployment.