LatentLens: Revelando Tokens Visuales Altamente Interpretables en los LLM
LatentLens: Revealing Highly Interpretable Visual Tokens in LLMs
January 31, 2026
Autores: Benno Krojer, Shravan Nayak, Oscar Mañas, Vaibhav Adlakha, Desmond Elliott, Siva Reddy, Marius Mosbach
cs.AI
Resumen
Transformar un modelo de lenguaje grande (LLM) en un modelo de visión y lenguaje (VLM) puede lograrse mapeando los tokens visuales de un codificador de visión al espacio de embeddings de un LLM. Curiosamente, este mapeo puede ser tan simple como una transformación MLP superficial. Para comprender por qué los LLM pueden procesar tan fácilmente tokens visuales, necesitamos métodos de interpretabilidad que revelen lo que está codificado en las representaciones de tokens visuales en cada capa del procesamiento del LLM. En este trabajo, presentamos LatentLens, un enfoque novedoso para mapear representaciones latentes a descripciones en lenguaje natural. LatentLens funciona codificando un gran corpus de texto y almacenando las representaciones contextualizadas de tokens para cada token en dicho corpus. Las representaciones de tokens visuales se comparan luego con sus representaciones textuales contextualizadas, donde las representaciones de los k-vecinos más cercanos proporcionan descripciones del token visual. Evaluamos este método en 10 VLM diferentes, mostrando que los métodos comúnmente utilizados, como LogitLens, subestiman sustancialmente la interpretabilidad de los tokens visuales. Con LatentLens, en cambio, la mayoría de los tokens visuales son interpretables en todos los modelos estudiados y en todas las capas. Cualitativamente, demostramos que las descripciones producidas por LatentLens son semánticamente significativas y proporcionan interpretaciones más detalladas para los humanos en comparación con tokens individuales. En términos más generales, nuestros hallazgos aportan nueva evidencia sobre la alineación entre las representaciones de visión y lenguaje, abriendo nuevas direcciones para analizar representaciones latentes.
English
Transforming a large language model (LLM) into a Vision-Language Model (VLM) can be achieved by mapping the visual tokens from a vision encoder into the embedding space of an LLM. Intriguingly, this mapping can be as simple as a shallow MLP transformation. To understand why LLMs can so readily process visual tokens, we need interpretability methods that reveal what is encoded in the visual token representations at every layer of LLM processing. In this work, we introduce LatentLens, a novel approach for mapping latent representations to descriptions in natural language. LatentLens works by encoding a large text corpus and storing contextualized token representations for each token in that corpus. Visual token representations are then compared to their contextualized textual representations, with the top-k nearest neighbor representations providing descriptions of the visual token. We evaluate this method on 10 different VLMs, showing that commonly used methods, such as LogitLens, substantially underestimate the interpretability of visual tokens. With LatentLens instead, the majority of visual tokens are interpretable across all studied models and all layers. Qualitatively, we show that the descriptions produced by LatentLens are semantically meaningful and provide more fine-grained interpretations for humans compared to individual tokens. More broadly, our findings contribute new evidence on the alignment between vision and language representations, opening up new directions for analyzing latent representations.