Modelos de Linguagem são Injetivos e, portanto, Invertíveis.

Resumo

Componentes do Transformer, como ativações não lineares e normalização, são inerentemente não injetivos, sugerindo que diferentes entradas podem mapear para a mesma saída e impedir a recuperação exata da entrada a partir das representações do modelo. Neste artigo, desafiamos essa visão. Primeiro, provamos matematicamente que modelos de linguagem Transformer que mapeiam sequências de entrada discretas para suas correspondentes sequências de representações contínuas são injetivos e, portanto, sem perdas, uma propriedade estabelecida na inicialização e preservada durante o treinamento. Segundo, confirmamos esse resultado empiricamente por meio de bilhões de testes de colisão em seis modelos de linguagem state-of-the-art, e não observamos nenhuma colisão. Terceiro, operacionalizamos a injetividade: introduzimos o SipIt, o primeiro algoritmo que prova e reconstrói eficientemente o texto de entrada exato a partir de ativações ocultas, estabelecendo garantias de tempo linear e demonstrando invertibilidade exata na prática. No geral, nosso trabalho estabelece a injetividade como uma propriedade fundamental e explorável de modelos de linguagem, com implicações diretas para transparência, interpretabilidade e implantação segura.

English

Transformer components such as non-linear activations and normalization are inherently non-injective, suggesting that different inputs could map to the same output and prevent exact recovery of the input from a model's representations. In this paper, we challenge this view. First, we prove mathematically that transformer language models mapping discrete input sequences to their corresponding sequence of continuous representations are injective and therefore lossless, a property established at initialization and preserved during training. Second, we confirm this result empirically through billions of collision tests on six state-of-the-art language models, and observe no collisions. Third, we operationalize injectivity: we introduce SipIt, the first algorithm that provably and efficiently reconstructs the exact input text from hidden activations, establishing linear-time guarantees and demonstrating exact invertibility in practice. Overall, our work establishes injectivity as a fundamental and exploitable property of language models, with direct implications for transparency, interpretability, and safe deployment.

Modelos de Linguagem são Injetivos e, portanto, Invertíveis.

Language Models are Injective and Hence Invertible

Resumo

Support