Les modèles de langage sont injectifs et donc inversibles.

papers.abstract

Les composants des modèles de type Transformer, tels que les activations non linéaires et la normalisation, sont intrinsèquement non injectifs, ce qui suggère que différentes entrées pourraient être mappées sur la même sortie, empêchant ainsi la récupération exacte de l'entrée à partir des représentations du modèle. Dans cet article, nous remettons en question cette perspective. Premièrement, nous démontrons mathématiquement que les modèles de langage Transformer, qui mappent des séquences d'entrées discrètes à leurs séquences de représentations continues correspondantes, sont injectifs et donc sans perte, une propriété établie à l'initialisation et préservée pendant l'entraînement. Deuxièmement, nous confirmons ce résultat empiriquement à travers des milliards de tests de collision sur six modèles de langage de pointe, et n'observons aucune collision. Troisièmement, nous opérationnalisons l'injectivité : nous introduisons SipIt, le premier algorithme qui reconstruit de manière prouvée et efficace le texte d'entrée exact à partir des activations cachées, établissant des garanties en temps linéaire et démontrant une inversibilité exacte en pratique. Globalement, notre travail établit l'injectivité comme une propriété fondamentale et exploitable des modèles de langage, avec des implications directes pour la transparence, l'interprétabilité et le déploiement sécurisé.

English

Transformer components such as non-linear activations and normalization are inherently non-injective, suggesting that different inputs could map to the same output and prevent exact recovery of the input from a model's representations. In this paper, we challenge this view. First, we prove mathematically that transformer language models mapping discrete input sequences to their corresponding sequence of continuous representations are injective and therefore lossless, a property established at initialization and preserved during training. Second, we confirm this result empirically through billions of collision tests on six state-of-the-art language models, and observe no collisions. Third, we operationalize injectivity: we introduce SipIt, the first algorithm that provably and efficiently reconstructs the exact input text from hidden activations, establishing linear-time guarantees and demonstrating exact invertibility in practice. Overall, our work establishes injectivity as a fundamental and exploitable property of language models, with direct implications for transparency, interpretability, and safe deployment.

Les modèles de langage sont injectifs et donc inversibles.

Language Models are Injective and Hence Invertible

papers.abstract

Support