Modelos de Linguagem são Injetivos e, portanto, Invertíveis.
Language Models are Injective and Hence Invertible
October 17, 2025
Autores: Giorgos Nikolaou, Tommaso Mencattini, Donato Crisostomi, Andrea Santilli, Yannis Panagakis, Emanuele Rodola'
cs.AI
Resumo
Componentes do Transformer, como ativações não lineares e normalização, são
inerentemente não injetivos, sugerindo que diferentes entradas podem mapear para
a mesma saída e impedir a recuperação exata da entrada a partir das
representações do modelo. Neste artigo, desafiamos essa visão. Primeiro,
provamos matematicamente que modelos de linguagem Transformer que mapeiam
sequências de entrada discretas para suas correspondentes sequências de
representações contínuas são injetivos e, portanto, sem perdas, uma propriedade
estabelecida na inicialização e preservada durante o treinamento. Segundo,
confirmamos esse resultado empiricamente por meio de bilhões de testes de
colisão em seis modelos de linguagem state-of-the-art, e não observamos nenhuma
colisão. Terceiro, operacionalizamos a injetividade: introduzimos o SipIt, o
primeiro algoritmo que prova e reconstrói eficientemente o texto de entrada
exato a partir de ativações ocultas, estabelecendo garantias de tempo linear e
demonstrando invertibilidade exata na prática. No geral, nosso trabalho
estabelece a injetividade como uma propriedade fundamental e explorável de
modelos de linguagem, com implicações diretas para transparência,
interpretabilidade e implantação segura.
English
Transformer components such as non-linear activations and normalization are
inherently non-injective, suggesting that different inputs could map to the
same output and prevent exact recovery of the input from a model's
representations. In this paper, we challenge this view. First, we prove
mathematically that transformer language models mapping discrete input
sequences to their corresponding sequence of continuous representations are
injective and therefore lossless, a property established at initialization and
preserved during training. Second, we confirm this result empirically through
billions of collision tests on six state-of-the-art language models, and
observe no collisions. Third, we operationalize injectivity: we introduce
SipIt, the first algorithm that provably and efficiently reconstructs the exact
input text from hidden activations, establishing linear-time guarantees and
demonstrating exact invertibility in practice. Overall, our work establishes
injectivity as a fundamental and exploitable property of language models, with
direct implications for transparency, interpretability, and safe deployment.