TensorLens: Análise de Transformadores de Ponta a Ponta via Tensores de Atenção de Alta Ordem

Resumo

As matrizes de atenção são fundamentais para a pesquisa em transformadores, suportando uma ampla gama de aplicações, incluindo interpretabilidade, visualização, manipulação e destilação. No entanto, a maioria das análises existentes concentra-se em cabeças ou camadas de atenção individuais, não considerando o comportamento global do modelo. Embora esforços anteriores tenham estendido as formulações de atenção através de múltiplas cabeças via média e multiplicações de matrizes, ou incorporado componentes como normalização e FFNs, ainda falta uma representação unificada e completa que encapsule todos os blocos do transformador. Nós abordamos esta lacuna introduzindo o TensorLens, uma nova formulação que captura o transformador inteiro como um único operador linear dependente da entrada, expresso através de um tensor de interação-atenção de alta ordem. Este tensor codifica conjuntamente a atenção, FFNs, ativações, normalizações e conexões residuais, oferecendo uma representação linear teoricamente coerente e expressiva da computação do modelo. O TensorLens é teoricamente fundamentado e nossa validação empírica mostra que ele produz representações mais ricas do que métodos anteriores de agregação de atenção. Nossos experimentos demonstram que o tensor de atenção pode servir como uma base poderosa para o desenvolvimento de ferramentas voltadas à interpretabilidade e compreensão do modelo. Nosso código está anexado como material suplementar.

English

Attention matrices are fundamental to transformer research, supporting a broad range of applications including interpretability, visualization, manipulation, and distillation. Yet, most existing analyses focus on individual attention heads or layers, failing to account for the model's global behavior. While prior efforts have extended attention formulations across multiple heads via averaging and matrix multiplications or incorporated components such as normalization and FFNs, a unified and complete representation that encapsulates all transformer blocks is still lacking. We address this gap by introducing TensorLens, a novel formulation that captures the entire transformer as a single, input-dependent linear operator expressed through a high-order attention-interaction tensor. This tensor jointly encodes attention, FFNs, activations, normalizations, and residual connections, offering a theoretically coherent and expressive linear representation of the model's computation. TensorLens is theoretically grounded and our empirical validation shows that it yields richer representations than previous attention-aggregation methods. Our experiments demonstrate that the attention tensor can serve as a powerful foundation for developing tools aimed at interpretability and model understanding. Our code is attached as a supplementary.

TensorLens: Análise de Transformadores de Ponta a Ponta via Tensores de Atenção de Alta Ordem

TensorLens: End-to-End Transformer Analysis via High-Order Attention Tensors

Resumo

Support