ChatPaper.aiChatPaper

LaTIM: Het meten van latente token-tot-token interacties in Mamba-modellen

LaTIM: Measuring Latent Token-to-Token Interactions in Mamba Models

February 21, 2025
Auteurs: Hugo Pitorro, Marcos Treviso
cs.AI

Samenvatting

State space models (SSMs), zoals Mamba, zijn naar voren gekomen als een efficiënt alternatief voor transformers voor het modelleren van lange-contextsequenties. Ondanks hun toenemende adoptie ontbreekt het SSMs echter aan de interpreteerbaarheidsinstrumenten die cruciaal zijn geweest voor het begrijpen en verbeteren van aandacht-gebaseerde architecturen. Hoewel recente inspanningen inzicht bieden in de interne mechanismen van Mamba, ontbinden ze niet expliciet de bijdragen op tokenniveau, wat leidt tot hiaten in het begrijpen van hoe Mamba sequenties selectief verwerkt over verschillende lagen. In dit werk introduceren we LaTIM, een nieuwe methode voor token-niveau ontleding voor zowel Mamba-1 als Mamba-2, die fijnmazige interpreteerbaarheid mogelijk maakt. We evalueren onze methode uitgebreid in diverse taken, waaronder machinaal vertalen, kopiëren en retrieval-gebaseerde generatie, en tonen aan dat deze effectief is in het onthullen van Mamba's token-token interactiepatronen.
English
State space models (SSMs), such as Mamba, have emerged as an efficient alternative to transformers for long-context sequence modeling. However, despite their growing adoption, SSMs lack the interpretability tools that have been crucial for understanding and improving attention-based architectures. While recent efforts provide insights into Mamba's internal mechanisms, they do not explicitly decompose token-wise contributions, leaving gaps in understanding how Mamba selectively processes sequences across layers. In this work, we introduce LaTIM, a novel token-level decomposition method for both Mamba-1 and Mamba-2 that enables fine-grained interpretability. We extensively evaluate our method across diverse tasks, including machine translation, copying, and retrieval-based generation, demonstrating its effectiveness in revealing Mamba's token-to-token interaction patterns.

Summary

AI-Generated Summary

PDF42February 26, 2025