Neuroni Multimodali nei Trasformatori Pre-addestrati su Solo Testo
Multimodal Neurons in Pretrained Text-Only Transformers
August 3, 2023
Autori: Sarah Schwettmann, Neil Chowdhury, Antonio Torralba
cs.AI
Abstract
I modelli linguistici dimostrano una notevole capacità di generalizzare le rappresentazioni apprese in una modalità per applicarle a compiti successivi in altre modalità. Possiamo ricondurre questa abilità a singoli neuroni? Studiamo il caso in cui un trasformatore di testo congelato viene potenziato con la visione utilizzando un codificatore visivo auto-supervisionato e una singola proiezione lineare appresa su un compito di immagine-a-testo. Gli output dello strato di proiezione non sono immediatamente decodificabili in linguaggio che descrive il contenuto dell'immagine; invece, scopriamo che la traduzione tra modalità avviene più in profondità all'interno del trasformatore. Introduciamo una procedura per identificare "neuroni multimodali" che convertono rappresentazioni visive in testo corrispondente, e decodificare i concetti che iniettano nel flusso residuo del modello. In una serie di esperimenti, mostriamo che i neuroni multimodali operano su specifici concetti visivi attraverso gli input e hanno un effetto causale sistematico sulla generazione di didascalie per immagini.
English
Language models demonstrate remarkable capacity to generalize representations
learned in one modality to downstream tasks in other modalities. Can we trace
this ability to individual neurons? We study the case where a frozen text
transformer is augmented with vision using a self-supervised visual encoder and
a single linear projection learned on an image-to-text task. Outputs of the
projection layer are not immediately decodable into language describing image
content; instead, we find that translation between modalities occurs deeper
within the transformer. We introduce a procedure for identifying "multimodal
neurons" that convert visual representations into corresponding text, and
decoding the concepts they inject into the model's residual stream. In a series
of experiments, we show that multimodal neurons operate on specific visual
concepts across inputs, and have a systematic causal effect on image
captioning.