Les encodages positionnels aléatoires améliorent la généralisation à la longueur des Transformers.
Randomized Positional Encodings Boost Length Generalization of Transformers
May 26, 2023
Auteurs: Anian Ruoss, Grégoire Delétang, Tim Genewein, Jordi Grau-Moya, Róbert Csordás, Mehdi Bennani, Shane Legg, Joel Veness
cs.AI
Résumé
Les Transformers possèdent des capacités impressionnantes de généralisation sur des tâches avec une longueur de contexte fixe. Cependant, ils échouent à généraliser à des séquences de longueur arbitraire, même pour des tâches apparemment simples comme la duplication d'une chaîne de caractères. De plus, l'entraînement sur des séquences plus longues est inefficace en raison de la complexité computationnelle quadratique du mécanisme d'attention globale. Dans ce travail, nous démontrons que cet échec est lié au fait que les encodages positionnels sont hors distribution pour des séquences plus longues (même pour les encodages relatifs) et nous introduisons une nouvelle famille d'encodages positionnels capables de surmonter ce problème. Concrètement, notre schéma d'encodage positionnel randomisé simule les positions de séquences plus longues et sélectionne aléatoirement un sous-ensemble ordonné pour s'adapter à la longueur de la séquence. Notre évaluation empirique à grande échelle de 6000 modèles sur 15 tâches de raisonnement algorithmique montre que notre méthode permet aux Transformers de généraliser à des séquences de longueur inédite (augmentant la précision en test de 12,0 % en moyenne).
English
Transformers have impressive generalization capabilities on tasks with a
fixed context length. However, they fail to generalize to sequences of
arbitrary length, even for seemingly simple tasks such as duplicating a string.
Moreover, simply training on longer sequences is inefficient due to the
quadratic computation complexity of the global attention mechanism. In this
work, we demonstrate that this failure mode is linked to positional encodings
being out-of-distribution for longer sequences (even for relative encodings)
and introduce a novel family of positional encodings that can overcome this
problem. Concretely, our randomized positional encoding scheme simulates the
positions of longer sequences and randomly selects an ordered subset to fit the
sequence's length. Our large-scale empirical evaluation of 6000 models across
15 algorithmic reasoning tasks shows that our method allows Transformers to
generalize to sequences of unseen length (increasing test accuracy by 12.0% on
average).