LaTIM : Mesure des interactions latentes entre tokens dans les modèles Mamba
LaTIM: Measuring Latent Token-to-Token Interactions in Mamba Models
February 21, 2025
papers.authors: Hugo Pitorro, Marcos Treviso
cs.AI
papers.abstract
Les modèles d'espace d'états (SSMs), tels que Mamba, sont apparus comme une alternative efficace aux transformers pour la modélisation de séquences à contexte long. Cependant, malgré leur adoption croissante, les SSMs manquent d'outils d'interprétabilité qui ont été cruciaux pour comprendre et améliorer les architectures basées sur l'attention. Bien que des efforts récents aient fourni des insights sur les mécanismes internes de Mamba, ils ne décomposent pas explicitement les contributions au niveau des tokens, laissant des lacunes dans la compréhension de la manière dont Mamba traite sélectivement les séquences à travers les couches. Dans ce travail, nous introduisons LaTIM, une nouvelle méthode de décomposition au niveau des tokens pour Mamba-1 et Mamba-2 qui permet une interprétabilité fine. Nous évaluons largement notre méthode sur diverses tâches, incluant la traduction automatique, la copie et la génération basée sur la récupération, démontrant son efficacité à révéler les schémas d'interaction token-à-token de Mamba.
English
State space models (SSMs), such as Mamba, have emerged as an efficient
alternative to transformers for long-context sequence modeling. However,
despite their growing adoption, SSMs lack the interpretability tools that have
been crucial for understanding and improving attention-based architectures.
While recent efforts provide insights into Mamba's internal mechanisms, they do
not explicitly decompose token-wise contributions, leaving gaps in
understanding how Mamba selectively processes sequences across layers. In this
work, we introduce LaTIM, a novel token-level decomposition method for both
Mamba-1 and Mamba-2 that enables fine-grained interpretability. We extensively
evaluate our method across diverse tasks, including machine translation,
copying, and retrieval-based generation, demonstrating its effectiveness in
revealing Mamba's token-to-token interaction patterns.