I modelli linguistici sono iniettivi e quindi invertibili.

Abstract

Componenti dei Transformer come le attivazioni non lineari e la normalizzazione sono intrinsecamente non iniettive, suggerendo che input diversi possano mappare sullo stesso output e impedire il recupero esatto dell'input dalle rappresentazioni del modello. In questo articolo, contestiamo questa visione. In primo luogo, dimostriamo matematicamente che i modelli linguistici Transformer che mappano sequenze di input discrete alle corrispondenti sequenze di rappresentazioni continue sono iniettivi e quindi privi di perdita, una proprietà stabilita all'inizializzazione e preservata durante l'addestramento. In secondo luogo, confermiamo questo risultato empiricamente attraverso miliardi di test di collisione su sei modelli linguistici all'avanguardia, osservando nessuna collisione. In terzo luogo, operazionalizziamo l'iniettività: introduciamo SipIt, il primo algoritmo che ricostruisce in modo dimostrabile ed efficiente l'esatto testo di input dalle attivazioni nascoste, stabilendo garanzie di tempo lineare e dimostrando l'invertibilità esatta nella pratica. Nel complesso, il nostro lavoro stabilisce l'iniettività come una proprietà fondamentale e sfruttabile dei modelli linguistici, con implicazioni dirette per la trasparenza, l'interpretabilità e il dispiegamento sicuro.

English

Transformer components such as non-linear activations and normalization are inherently non-injective, suggesting that different inputs could map to the same output and prevent exact recovery of the input from a model's representations. In this paper, we challenge this view. First, we prove mathematically that transformer language models mapping discrete input sequences to their corresponding sequence of continuous representations are injective and therefore lossless, a property established at initialization and preserved during training. Second, we confirm this result empirically through billions of collision tests on six state-of-the-art language models, and observe no collisions. Third, we operationalize injectivity: we introduce SipIt, the first algorithm that provably and efficiently reconstructs the exact input text from hidden activations, establishing linear-time guarantees and demonstrating exact invertibility in practice. Overall, our work establishes injectivity as a fundamental and exploitable property of language models, with direct implications for transparency, interpretability, and safe deployment.

I modelli linguistici sono iniettivi e quindi invertibili.

Language Models are Injective and Hence Invertible

Abstract

Support