Le codifiche posizionali casuali migliorano la generalizzazione della lunghezza nei Transformer
Randomized Positional Encodings Boost Length Generalization of Transformers
May 26, 2023
Autori: Anian Ruoss, Grégoire Delétang, Tim Genewein, Jordi Grau-Moya, Róbert Csordás, Mehdi Bennani, Shane Legg, Joel Veness
cs.AI
Abstract
I Transformer dimostrano impressionanti capacità di generalizzazione su compiti con una lunghezza di contesto fissa. Tuttavia, non riescono a generalizzare a sequenze di lunghezza arbitraria, anche per compiti apparentemente semplici come la duplicazione di una stringa. Inoltre, il semplice addestramento su sequenze più lunghe è inefficiente a causa della complessità computazionale quadratica del meccanismo di attenzione globale. In questo lavoro, dimostriamo che questo fallimento è legato al fatto che le codifiche posizionali risultano fuori distribuzione per sequenze più lunghe (anche per le codifiche relative) e introduciamo una nuova famiglia di codifiche posizionali in grado di superare questo problema. Nello specifico, il nostro schema di codifica posizionale randomizzata simula le posizioni di sequenze più lunghe e seleziona casualmente un sottoinsieme ordinato per adattarsi alla lunghezza della sequenza. La nostra valutazione empirica su larga scala di 6000 modelli su 15 compiti di ragionamento algoritmico mostra che il nostro metodo consente ai Transformer di generalizzare a sequenze di lunghezza non vista (aumentando l'accuratezza del test del 12,0% in media).
English
Transformers have impressive generalization capabilities on tasks with a
fixed context length. However, they fail to generalize to sequences of
arbitrary length, even for seemingly simple tasks such as duplicating a string.
Moreover, simply training on longer sequences is inefficient due to the
quadratic computation complexity of the global attention mechanism. In this
work, we demonstrate that this failure mode is linked to positional encodings
being out-of-distribution for longer sequences (even for relative encodings)
and introduce a novel family of positional encodings that can overcome this
problem. Concretely, our randomized positional encoding scheme simulates the
positions of longer sequences and randomly selects an ordered subset to fit the
sequence's length. Our large-scale empirical evaluation of 6000 models across
15 algorithmic reasoning tasks shows that our method allows Transformers to
generalize to sequences of unseen length (increasing test accuracy by 12.0% on
average).