ChatPaper.aiChatPaper

LatentLens: LLMにおける高度に解釈可能な視覚トークンの可視化

LatentLens: Revealing Highly Interpretable Visual Tokens in LLMs

January 31, 2026
著者: Benno Krojer, Shravan Nayak, Oscar Mañas, Vaibhav Adlakha, Desmond Elliott, Siva Reddy, Marius Mosbach
cs.AI

要旨

大規模言語モデル(LLM)を視覚言語モデル(VLM)に変換するには、ビジョンエンコーダーから得られた視覚トークンをLLMの埋め込み空間にマッピングすれば実現できる。興味深いことに、このマッピングは浅いMLP変換のような単純な手法で済む場合がある。なぜLLMが視覚トークンを容易に処理できるのかを理解するには、LLMの各処理層において視覚トークン表現に何が符号化されているかを明らかにする解釈可能性手法が必要である。本研究では、潜在表現を自然言語の記述へマッピングする新手法「LatentLens」を提案する。LatentLensは、大規模なテキストコーパスを符号化し、各トークンの文脈化されたトークン表現を保存することで機能する。視覚トークン表現は、これらの文脈化されたテキスト表現と比較され、上位k近傍の表現が視覚トークンの記述を提供する。本手法を10種類のVLMで評価した結果、LogitLensなどの一般的に使用される手法は、視覚トークンの解釈可能性を大幅に過小評価していることがわかった。一方LatentLensでは、調査したすべてのモデルと層において、大多数の視覚トークンが解釈可能であった。質的には、LatentLensが生成する記述は意味的に有意義であり、個々のトークンよりも人間にとってより細かい解釈を提供する。より広義には、本研究の知見は視覚と言語表現の間のアラインメントに関する新たな証拠を示し、潜在表現を分析する新たな方向性を開拓するものである。
English
Transforming a large language model (LLM) into a Vision-Language Model (VLM) can be achieved by mapping the visual tokens from a vision encoder into the embedding space of an LLM. Intriguingly, this mapping can be as simple as a shallow MLP transformation. To understand why LLMs can so readily process visual tokens, we need interpretability methods that reveal what is encoded in the visual token representations at every layer of LLM processing. In this work, we introduce LatentLens, a novel approach for mapping latent representations to descriptions in natural language. LatentLens works by encoding a large text corpus and storing contextualized token representations for each token in that corpus. Visual token representations are then compared to their contextualized textual representations, with the top-k nearest neighbor representations providing descriptions of the visual token. We evaluate this method on 10 different VLMs, showing that commonly used methods, such as LogitLens, substantially underestimate the interpretability of visual tokens. With LatentLens instead, the majority of visual tokens are interpretable across all studied models and all layers. Qualitatively, we show that the descriptions produced by LatentLens are semantically meaningful and provide more fine-grained interpretations for humans compared to individual tokens. More broadly, our findings contribute new evidence on the alignment between vision and language representations, opening up new directions for analyzing latent representations.
PDF141February 12, 2026