ChatPaper.aiChatPaper

LatentLens : Révéler des jetons visuels hautement interprétables dans les LLM

LatentLens: Revealing Highly Interpretable Visual Tokens in LLMs

January 31, 2026
papers.authors: Benno Krojer, Shravan Nayak, Oscar Mañas, Vaibhav Adlakha, Desmond Elliott, Siva Reddy, Marius Mosbach
cs.AI

papers.abstract

La transformation d'un grand modèle de langage (LLM) en modèle vision-langage (VLM) peut être réalisée en projetant les tokens visuels d'un encodeur visuel dans l'espace d'embedding d'un LLM. Il est remarquable que cette projection puisse être aussi simple qu'une transformation par un perceptron multicouche peu profond. Pour comprendre pourquoi les LLM peuvent traiter si facilement les tokens visuels, nous avons besoin de méthodes d'interprétabilité qui révèlent ce qui est encodé dans les représentations des tokens visuels à chaque couche du traitement par le LLM. Dans ce travail, nous présentons LatentLens, une approche novatrice pour cartographier les représentations latentes vers des descriptions en langage naturel. LatentLens fonctionne en encodant un large corpus textuel et en stockant les représentations contextuelles des tokens pour chaque token de ce corpus. Les représentations des tokens visuels sont ensuite comparées à leurs représentations textuelles contextuelles, les k plus proches voisins fournissant des descriptions du token visuel. Nous évaluons cette méthode sur 10 VLM différents, montrant que les méthodes couramment utilisées, comme LogitLens, sous-estiment considérablement l'interprétabilité des tokens visuels. Avec LatentLens, en revanche, la majorité des tokens visuels sont interprétables dans tous les modèles étudiés et à toutes les couches. Qualitativement, nous montrons que les descriptions produites par LatentLens sont sémantiquement significatives et fournissent des interprétations plus fines pour les humains que les tokens individuels. Plus généralement, nos résultats apportent de nouvelles preuves sur l'alignement entre les représentations visuelles et linguistiques, ouvrant de nouvelles directions pour l'analyse des représentations latentes.
English
Transforming a large language model (LLM) into a Vision-Language Model (VLM) can be achieved by mapping the visual tokens from a vision encoder into the embedding space of an LLM. Intriguingly, this mapping can be as simple as a shallow MLP transformation. To understand why LLMs can so readily process visual tokens, we need interpretability methods that reveal what is encoded in the visual token representations at every layer of LLM processing. In this work, we introduce LatentLens, a novel approach for mapping latent representations to descriptions in natural language. LatentLens works by encoding a large text corpus and storing contextualized token representations for each token in that corpus. Visual token representations are then compared to their contextualized textual representations, with the top-k nearest neighbor representations providing descriptions of the visual token. We evaluate this method on 10 different VLMs, showing that commonly used methods, such as LogitLens, substantially underestimate the interpretability of visual tokens. With LatentLens instead, the majority of visual tokens are interpretable across all studied models and all layers. Qualitatively, we show that the descriptions produced by LatentLens are semantically meaningful and provide more fine-grained interpretations for humans compared to individual tokens. More broadly, our findings contribute new evidence on the alignment between vision and language representations, opening up new directions for analyzing latent representations.
PDF141February 12, 2026