La complessità della rappresentazione simbolica nella memoria di lavoro del Transformer è correlata alla complessità di un compito
Complexity of Symbolic Representation in Working Memory of Transformer Correlates with the Complexity of a Task
June 20, 2024
Autori: Alsu Sagirova, Mikhail Burtsev
cs.AI
Abstract
Sebbene i Transformer siano ampiamente utilizzati per le attività di Elaborazione del Linguaggio Naturale, in particolare per la traduzione automatica, mancano di una memoria esplicita per memorizzare i concetti chiave dei testi elaborati. Questo articolo esplora le proprietà del contenuto della memoria di lavoro simbolica aggiunta al decoder del modello Transformer. Tale memoria di lavoro migliora la qualità delle previsioni del modello nel compito di traduzione automatica e funziona come una rappresentazione neurale-simbolica delle informazioni importanti affinché il modello effettui traduzioni corrette. Lo studio del contenuto della memoria ha rivelato che le parole chiave del testo tradotto vengono memorizzate nella memoria di lavoro, indicando la rilevanza del contenuto della memoria rispetto al testo elaborato. Inoltre, la diversità dei token e delle parti del discorso memorizzati nella memoria è correlata alla complessità dei corpora per il compito di traduzione automatica.
English
Even though Transformers are extensively used for Natural Language Processing
tasks, especially for machine translation, they lack an explicit memory to
store key concepts of processed texts. This paper explores the properties of
the content of symbolic working memory added to the Transformer model decoder.
Such working memory enhances the quality of model predictions in machine
translation task and works as a neural-symbolic representation of information
that is important for the model to make correct translations. The study of
memory content revealed that translated text keywords are stored in the working
memory, pointing to the relevance of memory content to the processed text.
Also, the diversity of tokens and parts of speech stored in memory correlates
with the complexity of the corpora for machine translation task.