Neurones multimodaux dans les transformeurs pré-entraînés en texte uniquement

papers.abstract

Les modèles de langage démontrent une capacité remarquable à généraliser les représentations apprises dans une modalité à des tâches en aval dans d'autres modalités. Pouvons-nous retracer cette capacité à des neurones individuels ? Nous étudions le cas où un transformeur de texte figé est enrichi d'une composante visuelle à l'aide d'un encodeur visuel auto-supervisé et d'une simple projection linéaire apprise sur une tâche d'image-à-texte. Les sorties de la couche de projection ne sont pas immédiatement décodables en langage décrivant le contenu de l'image ; à la place, nous constatons que la traduction entre modalités se produit plus profondément au sein du transformeur. Nous introduisons une procédure pour identifier des "neurones multimodaux" qui convertissent les représentations visuelles en texte correspondant, et décoder les concepts qu'ils injectent dans le flux résiduel du modèle. Dans une série d'expériences, nous montrons que les neurones multimodaux opèrent sur des concepts visuels spécifiques à travers les entrées, et ont un effet causal systématique sur la génération de légendes d'images.

English

Language models demonstrate remarkable capacity to generalize representations learned in one modality to downstream tasks in other modalities. Can we trace this ability to individual neurons? We study the case where a frozen text transformer is augmented with vision using a self-supervised visual encoder and a single linear projection learned on an image-to-text task. Outputs of the projection layer are not immediately decodable into language describing image content; instead, we find that translation between modalities occurs deeper within the transformer. We introduce a procedure for identifying "multimodal neurons" that convert visual representations into corresponding text, and decoding the concepts they inject into the model's residual stream. In a series of experiments, we show that multimodal neurons operate on specific visual concepts across inputs, and have a systematic causal effect on image captioning.

Neurones multimodaux dans les transformeurs pré-entraînés en texte uniquement

Multimodal Neurons in Pretrained Text-Only Transformers

papers.abstract

Support