LatentLens: Rivelare Token Visivi Altamente Interpretabili nei Modelli Linguistici di Grande Dimensione

Abstract

La trasformazione di un grande modello linguistico (LLM) in un modello visione-linguaggio (VLM) può essere realizzata mappando i token visivi provenienti da un encoder visivo nello spazio di embedding di un LLM. È interessante notare che questa mappatura può essere semplice quanto una trasformazione MLP superficiale. Per capire perché gli LLM possono elaborare così facilmente i token visivi, abbiamo bisogno di metodi di interpretabilità che rivelino cosa è codificato nelle rappresentazioni dei token visivi a ogni livello dell'elaborazione dell'LLM. In questo lavoro, introduciamo LatentLens, un nuovo approccio per mappare le rappresentazioni latenti a descrizioni in linguaggio naturale. LatentLens funziona codificando un ampio corpus testuale e memorizzando le rappresentazioni contestualizzate dei token per ogni token in quel corpus. Le rappresentazioni dei token visivi vengono poi confrontate con le loro rappresentazioni testuali contestualizzate, e le prime k rappresentazioni vicine più prossime forniscono le descrizioni del token visivo. Valutiamo questo metodo su 10 VLM diversi, dimostrando che i metodi comunemente usati, come LogitLens, sottostimano sostanzialmente l'interpretabilità dei token visivi. Con LatentLens, invece, la maggior parte dei token visivi è interpretabile in tutti i modelli studiati e a tutti i livelli. Qualitativamente, mostriamo che le descrizioni prodotte da LatentLens sono semanticamente significative e forniscono interpretazioni più granulari per gli esseri umani rispetto ai singoli token. Più in generale, i nostri risultati forniscono nuove prove sull'allineamento tra le rappresentazioni visive e linguistiche, aprendo nuove direzioni per l'analisi delle rappresentazioni latenti.

English

Transforming a large language model (LLM) into a Vision-Language Model (VLM) can be achieved by mapping the visual tokens from a vision encoder into the embedding space of an LLM. Intriguingly, this mapping can be as simple as a shallow MLP transformation. To understand why LLMs can so readily process visual tokens, we need interpretability methods that reveal what is encoded in the visual token representations at every layer of LLM processing. In this work, we introduce LatentLens, a novel approach for mapping latent representations to descriptions in natural language. LatentLens works by encoding a large text corpus and storing contextualized token representations for each token in that corpus. Visual token representations are then compared to their contextualized textual representations, with the top-k nearest neighbor representations providing descriptions of the visual token. We evaluate this method on 10 different VLMs, showing that commonly used methods, such as LogitLens, substantially underestimate the interpretability of visual tokens. With LatentLens instead, the majority of visual tokens are interpretable across all studied models and all layers. Qualitatively, we show that the descriptions produced by LatentLens are semantically meaningful and provide more fine-grained interpretations for humans compared to individual tokens. More broadly, our findings contribute new evidence on the alignment between vision and language representations, opening up new directions for analyzing latent representations.

LatentLens: Rivelare Token Visivi Altamente Interpretabili nei Modelli Linguistici di Grande Dimensione

LatentLens: Revealing Highly Interpretable Visual Tokens in LLMs

Abstract

Support