LatentLens: Раскрытие высокоинтерпретируемых визуальных токенов в больших языковых моделях
LatentLens: Revealing Highly Interpretable Visual Tokens in LLMs
January 31, 2026
Авторы: Benno Krojer, Shravan Nayak, Oscar Mañas, Vaibhav Adlakha, Desmond Elliott, Siva Reddy, Marius Mosbach
cs.AI
Аннотация
Преобразование большой языковой модели (LLM) в визуально-языковую модель (VLM) может быть достигнуто путем отображения визуальных токенов из визуального энкодера в пространство эмбеддингов LLM. Примечательно, что это отображение может быть столь же простым, как преобразование с помощью неглубокого MLP. Чтобы понять, почему LLM так легко обрабатывают визуальные токены, необходимы методы интерпретируемости, которые раскрывают, что закодировано в репрезентациях визуальных токенов на каждом слое обработки LLM. В данной работе мы представляем LatentLens — новый подход для сопоставления латентных репрезентаций с описаниями на естественном языке. LatentLens работает путем кодирования большого текстового корпуса и сохранения контекстуализированных токенных репрезентаций для каждого токена в этом корпусе. Затем репрезентации визуальных токенов сравниваются с их контекстуализированными текстовыми репрезентациями, причем top-k ближайших соседних репрезентаций предоставляют описания визуального токена. Мы оцениваем этот метод на 10 различных VLM, показывая, что широко используемые методы, такие как LogitLens, существенно недооценивают интерпретируемость визуальных токенов. Вместо этого с помощью LatentLens большинство визуальных токенов являются интерпретируемыми во всех изученных моделях и на всех слоях. Качественно мы демонстрируем, что описания, генерируемые LatentLens, семантически значимы и предоставляют более детальные интерпретации для человека по сравнению с отдельными токенами. В более широком смысле наши результаты предоставляют новые доказательства согласованности между визуальными и языковыми репрезентациями, открывая новые направления для анализа латентных представлений.
English
Transforming a large language model (LLM) into a Vision-Language Model (VLM) can be achieved by mapping the visual tokens from a vision encoder into the embedding space of an LLM. Intriguingly, this mapping can be as simple as a shallow MLP transformation. To understand why LLMs can so readily process visual tokens, we need interpretability methods that reveal what is encoded in the visual token representations at every layer of LLM processing. In this work, we introduce LatentLens, a novel approach for mapping latent representations to descriptions in natural language. LatentLens works by encoding a large text corpus and storing contextualized token representations for each token in that corpus. Visual token representations are then compared to their contextualized textual representations, with the top-k nearest neighbor representations providing descriptions of the visual token. We evaluate this method on 10 different VLMs, showing that commonly used methods, such as LogitLens, substantially underestimate the interpretability of visual tokens. With LatentLens instead, the majority of visual tokens are interpretable across all studied models and all layers. Qualitatively, we show that the descriptions produced by LatentLens are semantically meaningful and provide more fine-grained interpretations for humans compared to individual tokens. More broadly, our findings contribute new evidence on the alignment between vision and language representations, opening up new directions for analyzing latent representations.