Taalmodellen zijn injectief en daardoor inverteerbaar.

Samenvatting

Transformer-componenten zoals niet-lineaire activaties en normalisatie zijn inherent niet-injectief, wat suggereert dat verschillende invoeren naar dezelfde uitvoer kunnen worden afgebeeld en daarmee een exacte reconstructie van de invoer vanuit de representaties van een model verhinderen. In dit artikel dagen we deze opvatting uit. Ten eerste bewijzen we wiskundig dat transformer-taalmodellen die discrete invoerreeksen afbeelden naar hun corresponderende reeks continue representaties injectief en dus verliesloos zijn, een eigenschap die bij initialisatie wordt vastgesteld en tijdens de training behouden blijft. Ten tweede bevestigen we dit resultaat empirisch door miljarden botsingstests uit te voeren op zes state-of-the-art taalmodellen, waarbij we geen botsingen waarnemen. Ten derde operationaliseren we injectiviteit: we introduceren SipIt, het eerste algoritme dat bewezen en efficiënt de exacte invoertekst reconstrueert vanuit verborgen activaties, waarbij lineaire-tijdgaranties worden vastgesteld en exacte inverteerbaarheid in de praktijk wordt aangetoond. Over het geheel genomen vestigt ons werk injectiviteit als een fundamentele en exploiteerbare eigenschap van taalmodelen, met directe implicaties voor transparantie, interpreteerbaarheid en veilige implementatie.

English

Transformer components such as non-linear activations and normalization are inherently non-injective, suggesting that different inputs could map to the same output and prevent exact recovery of the input from a model's representations. In this paper, we challenge this view. First, we prove mathematically that transformer language models mapping discrete input sequences to their corresponding sequence of continuous representations are injective and therefore lossless, a property established at initialization and preserved during training. Second, we confirm this result empirically through billions of collision tests on six state-of-the-art language models, and observe no collisions. Third, we operationalize injectivity: we introduce SipIt, the first algorithm that provably and efficiently reconstructs the exact input text from hidden activations, establishing linear-time guarantees and demonstrating exact invertibility in practice. Overall, our work establishes injectivity as a fundamental and exploitable property of language models, with direct implications for transparency, interpretability, and safe deployment.

Taalmodellen zijn injectief en daardoor inverteerbaar.

Language Models are Injective and Hence Invertible

Samenvatting

Support