Multimodale Neuronen in vortrainierten textbasierten Transformern
Multimodal Neurons in Pretrained Text-Only Transformers
August 3, 2023
Autoren: Sarah Schwettmann, Neil Chowdhury, Antonio Torralba
cs.AI
Zusammenfassung
Sprachmodelle zeigen eine bemerkenswerte Fähigkeit, in einer Modalität gelernte Repräsentationen auf nachgelagerte Aufgaben in anderen Modalitäten zu verallgemeinern. Können wir diese Fähigkeit auf einzelne Neuronen zurückführen? Wir untersuchen den Fall, in dem ein eingefrorener Text-Transformer durch eine selbstüberwachte visuelle Encoder-Architektur und eine einzige lineare Projektion, die auf einer Bild-zu-Text-Aufgabe trainiert wurde, um visuelle Fähigkeiten erweitert wird. Die Ausgaben der Projektionsschicht sind nicht unmittelbar in Sprache dekodierbar, die den Bildinhalt beschreibt; stattdessen stellen wir fest, dass die Übersetzung zwischen den Modalitäten tiefer innerhalb des Transformers stattfindet. Wir führen ein Verfahren zur Identifizierung „multimodaler Neuronen“ ein, die visuelle Repräsentationen in entsprechenden Text umwandeln, und dekodieren die Konzepte, die sie in den Residualstrom des Modells einspeisen. In einer Reihe von Experimenten zeigen wir, dass multimodale Neuronen spezifische visuelle Konzepte über verschiedene Eingaben hinweg verarbeiten und einen systematischen kausalen Effekt auf die Bildbeschreibung haben.
English
Language models demonstrate remarkable capacity to generalize representations
learned in one modality to downstream tasks in other modalities. Can we trace
this ability to individual neurons? We study the case where a frozen text
transformer is augmented with vision using a self-supervised visual encoder and
a single linear projection learned on an image-to-text task. Outputs of the
projection layer are not immediately decodable into language describing image
content; instead, we find that translation between modalities occurs deeper
within the transformer. We introduce a procedure for identifying "multimodal
neurons" that convert visual representations into corresponding text, and
decoding the concepts they inject into the model's residual stream. In a series
of experiments, we show that multimodal neurons operate on specific visual
concepts across inputs, and have a systematic causal effect on image
captioning.