Neurones multimodaux dans les transformeurs pré-entraînés en texte uniquement
Multimodal Neurons in Pretrained Text-Only Transformers
August 3, 2023
Auteurs: Sarah Schwettmann, Neil Chowdhury, Antonio Torralba
cs.AI
Résumé
Les modèles de langage démontrent une capacité remarquable à généraliser les représentations apprises dans une modalité à des tâches en aval dans d'autres modalités. Pouvons-nous retracer cette capacité à des neurones individuels ? Nous étudions le cas où un transformeur de texte figé est enrichi d'une composante visuelle à l'aide d'un encodeur visuel auto-supervisé et d'une simple projection linéaire apprise sur une tâche d'image-à-texte. Les sorties de la couche de projection ne sont pas immédiatement décodables en langage décrivant le contenu de l'image ; à la place, nous constatons que la traduction entre modalités se produit plus profondément au sein du transformeur. Nous introduisons une procédure pour identifier des "neurones multimodaux" qui convertissent les représentations visuelles en texte correspondant, et décoder les concepts qu'ils injectent dans le flux résiduel du modèle. Dans une série d'expériences, nous montrons que les neurones multimodaux opèrent sur des concepts visuels spécifiques à travers les entrées, et ont un effet causal systématique sur la génération de légendes d'images.
English
Language models demonstrate remarkable capacity to generalize representations
learned in one modality to downstream tasks in other modalities. Can we trace
this ability to individual neurons? We study the case where a frozen text
transformer is augmented with vision using a self-supervised visual encoder and
a single linear projection learned on an image-to-text task. Outputs of the
projection layer are not immediately decodable into language describing image
content; instead, we find that translation between modalities occurs deeper
within the transformer. We introduce a procedure for identifying "multimodal
neurons" that convert visual representations into corresponding text, and
decoding the concepts they inject into the model's residual stream. In a series
of experiments, we show that multimodal neurons operate on specific visual
concepts across inputs, and have a systematic causal effect on image
captioning.