LatentLens: Revelando Tokens Visuais Altamente Interpretáveis em LLMs

Resumo

A transformação de um grande modelo de linguagem (LLM) num modelo de visão e linguagem (VLM) pode ser alcançada mapeando os *tokens* visuais de um codificador de visão para o espaço de incorporação de um LLM. Curiosamente, este mapeamento pode ser tão simples como uma transformação por uma MLP superficial. Para compreender por que os LLMs conseguem processar tão facilmente *tokens* visuais, precisamos de métodos de interpretabilidade que revelem o que está codificado nas representações dos *tokens* visuais em cada camada do processamento do LLM. Neste trabalho, introduzimos o LatentLens, uma nova abordagem para mapear representações latentes para descrições em linguagem natural. O LatentLens funciona codificando um grande corpus de texto e armazenando as representações contextualizadas de cada *token* nesse corpus. As representações dos *tokens* visuais são então comparadas com as suas representações textuais contextualizadas, sendo que as representações dos k-vizinhos-mais-próximos fornecem descrições do *token* visual. Avaliamos este método em 10 VLMs diferentes, demonstrando que métodos comumente usados, como o LogitLens, subestimam substancialmente a interpretabilidade dos *tokens* visuais. Com o LatentLens, pelo contrário, a maioria dos *tokens* visuais é interpretável em todos os modelos estudados e em todas as camadas. Qualitativamente, mostramos que as descrições produzidas pelo LatentLens são semanticamente significativas e fornecem interpretações mais refinadas para os humanos em comparação com *tokens* individuais. De forma mais ampla, as nossas descobertas contribuem com novas evidências sobre o alinhamento entre as representações de visão e linguagem, abrindo novas direções para a análise de representações latentes.

English

Transforming a large language model (LLM) into a Vision-Language Model (VLM) can be achieved by mapping the visual tokens from a vision encoder into the embedding space of an LLM. Intriguingly, this mapping can be as simple as a shallow MLP transformation. To understand why LLMs can so readily process visual tokens, we need interpretability methods that reveal what is encoded in the visual token representations at every layer of LLM processing. In this work, we introduce LatentLens, a novel approach for mapping latent representations to descriptions in natural language. LatentLens works by encoding a large text corpus and storing contextualized token representations for each token in that corpus. Visual token representations are then compared to their contextualized textual representations, with the top-k nearest neighbor representations providing descriptions of the visual token. We evaluate this method on 10 different VLMs, showing that commonly used methods, such as LogitLens, substantially underestimate the interpretability of visual tokens. With LatentLens instead, the majority of visual tokens are interpretable across all studied models and all layers. Qualitatively, we show that the descriptions produced by LatentLens are semantically meaningful and provide more fine-grained interpretations for humans compared to individual tokens. More broadly, our findings contribute new evidence on the alignment between vision and language representations, opening up new directions for analyzing latent representations.

LatentLens: Revelando Tokens Visuais Altamente Interpretáveis em LLMs

LatentLens: Revealing Highly Interpretable Visual Tokens in LLMs

Resumo

Support