LatentLens: LLM 내 고해석성 시각 토큰의 가시화
LatentLens: Revealing Highly Interpretable Visual Tokens in LLMs
January 31, 2026
저자: Benno Krojer, Shravan Nayak, Oscar Mañas, Vaibhav Adlakha, Desmond Elliott, Siva Reddy, Marius Mosbach
cs.AI
초록
대규모 언어 모델(LLM)을 시각-언어 모델(VLM)로 변환하는 것은 비전 인코더의 시각 토큰을 LLM의 임베딩 공간에 매핑하는 방식으로 달성할 수 있습니다. 흥미롭게도, 이러한 매핑은 얕은 MLP 변환만으로도 가능합니다. LLM이 시각 토큰을 쉽게 처리할 수 있는 이유를 이해하려면, LLM 처리의 모든 계층에서 시각 토큰 표현에 무엇이 인코딩되었는지 밝혀주는 해석 가능성 방법이 필요합니다. 본 연구에서는 잠재 표현을 자연어 설명으로 매핑하는 새로운 접근법인 LatentLens를 소개합니다. LatentLens는 대규모 텍스트 코퍼스를 인코딩하고 해당 코퍼스의 각 토큰에 대한 문맥화된 토큰 표현을 저장하는 방식으로 작동합니다. 그런 다음 시각 토큰 표현을 문맥화된 텍스트 표현과 비교하며, 최상위 k개의 최근접 이웃 표현이 시각 토큰에 대한 설명을 제공합니다. 우리는 이 방법을 10가지 다른 VLM에 대해 평가하여, LogitLens와 같은 일반적으로 사용되는 방법들이 시각 토큰의 해석 가능성을 상당히 과소평가한다는 것을 보여줍니다. 반면 LatentLens를 사용하면 연구된 모든 모델과 모든 계층에서 대부분의 시각 토큰이 해석 가능합니다. 정성적으로 볼 때, LatentLens가 생성하는 설명은 의미론적으로 의미 있으며 개별 토큰에 비해 인간이 이해하기에 더 세분화된 해석을 제공합니다. 더 넓게 보면, 우리의 연구 결과는 시각과 언어 표현 간의 정렬에 대한 새로운 증거를 제시하며, 잠재 표현 분석을 위한 새로운 방향을 열어줍니다.
English
Transforming a large language model (LLM) into a Vision-Language Model (VLM) can be achieved by mapping the visual tokens from a vision encoder into the embedding space of an LLM. Intriguingly, this mapping can be as simple as a shallow MLP transformation. To understand why LLMs can so readily process visual tokens, we need interpretability methods that reveal what is encoded in the visual token representations at every layer of LLM processing. In this work, we introduce LatentLens, a novel approach for mapping latent representations to descriptions in natural language. LatentLens works by encoding a large text corpus and storing contextualized token representations for each token in that corpus. Visual token representations are then compared to their contextualized textual representations, with the top-k nearest neighbor representations providing descriptions of the visual token. We evaluate this method on 10 different VLMs, showing that commonly used methods, such as LogitLens, substantially underestimate the interpretability of visual tokens. With LatentLens instead, the majority of visual tokens are interpretable across all studied models and all layers. Qualitatively, we show that the descriptions produced by LatentLens are semantically meaningful and provide more fine-grained interpretations for humans compared to individual tokens. More broadly, our findings contribute new evidence on the alignment between vision and language representations, opening up new directions for analyzing latent representations.