La complexité de la représentation symbolique dans la mémoire de travail des Transformers est corrélée à la complexité d'une tâche
Complexity of Symbolic Representation in Working Memory of Transformer Correlates with the Complexity of a Task
June 20, 2024
papers.authors: Alsu Sagirova, Mikhail Burtsev
cs.AI
papers.abstract
Bien que les Transformers soient largement utilisés pour les tâches de traitement du langage naturel, en particulier pour la traduction automatique, ils ne disposent pas d'une mémoire explicite pour stocker les concepts clés des textes traités. Cet article explore les propriétés du contenu d'une mémoire de travail symbolique ajoutée au décodeur du modèle Transformer. Une telle mémoire de travail améliore la qualité des prédictions du modèle dans la tâche de traduction automatique et sert de représentation neuro-symbolique des informations importantes pour que le modèle produise des traductions correctes. L'étude du contenu de la mémoire a révélé que les mots-clés du texte traduit sont stockés dans la mémoire de travail, soulignant la pertinence du contenu de la mémoire par rapport au texte traité. De plus, la diversité des tokens et des parties du discours stockés en mémoire est corrélée à la complexité des corpus utilisés pour la tâche de traduction automatique.
English
Even though Transformers are extensively used for Natural Language Processing
tasks, especially for machine translation, they lack an explicit memory to
store key concepts of processed texts. This paper explores the properties of
the content of symbolic working memory added to the Transformer model decoder.
Such working memory enhances the quality of model predictions in machine
translation task and works as a neural-symbolic representation of information
that is important for the model to make correct translations. The study of
memory content revealed that translated text keywords are stored in the working
memory, pointing to the relevance of memory content to the processed text.
Also, the diversity of tokens and parts of speech stored in memory correlates
with the complexity of the corpora for machine translation task.