LatentLens: Hochgradig interpretierbare visuelle Tokens in LLMs aufdecken
LatentLens: Revealing Highly Interpretable Visual Tokens in LLMs
January 31, 2026
papers.authors: Benno Krojer, Shravan Nayak, Oscar Mañas, Vaibhav Adlakha, Desmond Elliott, Siva Reddy, Marius Mosbach
cs.AI
papers.abstract
Die Umwandlung eines großen Sprachmodells (LLM) in ein Vision-Sprache-Modell (VLM) kann durch die Abbildung visueller Tokens eines Vision-Encoders in den Einbettungsraum eines LLM erreicht werden. Interessanterweise kann diese Abbildung so einfach sein wie eine flache MLP-Transformation. Um zu verstehen, warum LLMs visuelle Tokens so problemlos verarbeiten können, benötigen wir Interpretierbarkeitsmethoden, die aufdecken, was in den Repräsentationen der visuellen Tokens auf jeder Verarbeitungsebene des LLM kodiert ist. In dieser Arbeit stellen wir LatentLens vor, einen neuartigen Ansatz zur Abbildung latenter Repräsentationen auf Beschreibungen in natürlicher Sprache. LatentLens funktioniert, indem ein großer Textkorpus kodiert und kontextualisierte Token-Repräsentationen für jedes Token in diesem Korpus gespeichert werden. Visuelle Token-Repräsentationen werden dann mit ihren kontextualisierten textuellen Repräsentationen verglichen, wobei die Top-k nächsten Nachbar-Repräsentationen Beschreibungen des visuellen Tokens liefern. Wir evaluieren diese Methode an 10 verschiedenen VLMs und zeigen, dass häufig verwendete Methoden, wie z.B. LogitLens, die Interpretierbarkeit visueller Tokens erheblich unterschätzen. Mit LatentLens hingegen ist die Mehrheit der visuellen Tokens über alle untersuchten Modelle und alle Schichten hinweg interpretierbar. Qualitativ zeigen wir, dass die von LatentLens erzeugten Beschreibungen semantisch bedeutungsvoll sind und im Vergleich zu einzelnen Tokens fein granulare Interpretationen für Menschen liefern. Im weiteren Sinne liefern unsere Ergebnisse neue Belege für die Ausrichtung zwischen visuellen und sprachlichen Repräsentationen und eröffnen neue Richtungen für die Analyse latenter Repräsentationen.
English
Transforming a large language model (LLM) into a Vision-Language Model (VLM) can be achieved by mapping the visual tokens from a vision encoder into the embedding space of an LLM. Intriguingly, this mapping can be as simple as a shallow MLP transformation. To understand why LLMs can so readily process visual tokens, we need interpretability methods that reveal what is encoded in the visual token representations at every layer of LLM processing. In this work, we introduce LatentLens, a novel approach for mapping latent representations to descriptions in natural language. LatentLens works by encoding a large text corpus and storing contextualized token representations for each token in that corpus. Visual token representations are then compared to their contextualized textual representations, with the top-k nearest neighbor representations providing descriptions of the visual token. We evaluate this method on 10 different VLMs, showing that commonly used methods, such as LogitLens, substantially underestimate the interpretability of visual tokens. With LatentLens instead, the majority of visual tokens are interpretable across all studied models and all layers. Qualitatively, we show that the descriptions produced by LatentLens are semantically meaningful and provide more fine-grained interpretations for humans compared to individual tokens. More broadly, our findings contribute new evidence on the alignment between vision and language representations, opening up new directions for analyzing latent representations.