LatentLens: Het onthullen van zeer interpreteerbare visuele tokens in LLM's
LatentLens: Revealing Highly Interpretable Visual Tokens in LLMs
January 31, 2026
Auteurs: Benno Krojer, Shravan Nayak, Oscar Mañas, Vaibhav Adlakha, Desmond Elliott, Siva Reddy, Marius Mosbach
cs.AI
Samenvatting
Het omvormen van een groot taalmodel (LLM) naar een vision-language model (VLM) kan worden bereikt door de visuele tokens van een vision-encoder af te beelden naar de embeddedingsruimte van een LLM. Opmerkelijk genoeg kan deze afbeelding zo eenvoudig zijn als een ondiepe MLP-transformatie. Om te begrijpen waarom LLM's visuele tokens zo gemakkelijk kunnen verwerken, hebben we interpreteerbaarheidsmethoden nodig die onthullen wat er is gecodeerd in de visuele tokenrepresentaties in elke laag van de LLM-verwerking. In dit werk introduceren we LatentLens, een nieuwe benadering voor het afbeelden van latente representaties naar beschrijvingen in natuurlijke taal. LatentLens werkt door een grote tekstcorpus te encoderen en gecontextualiseerde tokenrepresentaties voor elke token in die corpus op te slaan. Visuele tokenrepresentaties worden vervolgens vergeleken met hun gecontextualiseerde tekstuele representaties, waarbij de top-k dichtstbijzijnde buurrepresentaties beschrijvingen van de visuele token opleveren. We evalueren deze methode op 10 verschillende VLM's en tonen aan dat veelgebruikte methoden, zoals LogitLens, de interpreteerbaarheid van visuele tokens aanzienlijk onderschatten. Met LatentLens daarentegen zijn de meeste visuele tokens interpreteerbaar in alle bestudeerde modellen en alle lagen. Kwalitatief tonen we aan dat de door LatentLens geproduceerde beschrijvingen semantisch betekenisvol zijn en fijnmazigere interpretaties voor mensen bieden vergeleken met individuele tokens. In bredere zin dragen onze bevindingen bij aan nieuw bewijs over de afstemming tussen visie- en taalrepresentaties, wat nieuwe richtingen opent voor het analyseren van latente representaties.
English
Transforming a large language model (LLM) into a Vision-Language Model (VLM) can be achieved by mapping the visual tokens from a vision encoder into the embedding space of an LLM. Intriguingly, this mapping can be as simple as a shallow MLP transformation. To understand why LLMs can so readily process visual tokens, we need interpretability methods that reveal what is encoded in the visual token representations at every layer of LLM processing. In this work, we introduce LatentLens, a novel approach for mapping latent representations to descriptions in natural language. LatentLens works by encoding a large text corpus and storing contextualized token representations for each token in that corpus. Visual token representations are then compared to their contextualized textual representations, with the top-k nearest neighbor representations providing descriptions of the visual token. We evaluate this method on 10 different VLMs, showing that commonly used methods, such as LogitLens, substantially underestimate the interpretability of visual tokens. With LatentLens instead, the majority of visual tokens are interpretable across all studied models and all layers. Qualitatively, we show that the descriptions produced by LatentLens are semantically meaningful and provide more fine-grained interpretations for humans compared to individual tokens. More broadly, our findings contribute new evidence on the alignment between vision and language representations, opening up new directions for analyzing latent representations.