Neurônios Multimodais em Transformadores Pré-treinados Exclusivamente para Texto
Multimodal Neurons in Pretrained Text-Only Transformers
August 3, 2023
Autores: Sarah Schwettmann, Neil Chowdhury, Antonio Torralba
cs.AI
Resumo
Os modelos de linguagem demonstram uma capacidade notável de generalizar representações aprendidas em uma modalidade para tarefas subsequentes em outras modalidades. Podemos rastrear essa habilidade até neurônios individuais? Estudamos o caso em que um transformador de texto congelado é aumentado com visão usando um codificador visual auto-supervisionado e uma única projeção linear aprendida em uma tarefa de imagem para texto. As saídas da camada de projeção não são imediatamente decodificáveis em linguagem que descreve o conteúdo da imagem; em vez disso, descobrimos que a tradução entre modalidades ocorre mais profundamente dentro do transformador. Introduzimos um procedimento para identificar "neurônios multimodais" que convertem representações visuais em texto correspondente, e decodificar os conceitos que eles injetam no fluxo residual do modelo. Em uma série de experimentos, mostramos que os neurônios multimodais operam em conceitos visuais específicos entre as entradas e têm um efeito causal sistemático na geração de legendas de imagens.
English
Language models demonstrate remarkable capacity to generalize representations
learned in one modality to downstream tasks in other modalities. Can we trace
this ability to individual neurons? We study the case where a frozen text
transformer is augmented with vision using a self-supervised visual encoder and
a single linear projection learned on an image-to-text task. Outputs of the
projection layer are not immediately decodable into language describing image
content; instead, we find that translation between modalities occurs deeper
within the transformer. We introduce a procedure for identifying "multimodal
neurons" that convert visual representations into corresponding text, and
decoding the concepts they inject into the model's residual stream. In a series
of experiments, we show that multimodal neurons operate on specific visual
concepts across inputs, and have a systematic causal effect on image
captioning.