Randomized Positionele Coderingen Verbeteren Lengtegeneralizatie van Transformers

Samenvatting

Transformers beschikken over indrukwekkende generalisatiecapaciteiten bij taken met een vaste contextlengte. Ze slagen er echter niet in om te generaliseren naar sequenties van willekeurige lengte, zelfs niet voor ogenschijnlijk eenvoudige taken zoals het dupliceren van een string. Bovendien is het simpelweg trainen op langere sequenties inefficiënt vanwege de kwadratische rekencomplexiteit van het globale aandachtmechanisme. In dit werk tonen we aan dat deze foutmodus verband houdt met positionele coderingen die buiten de verdeling vallen voor langere sequenties (zelfs voor relatieve coderingen) en introduceren we een nieuwe familie van positionele coderingen die dit probleem kunnen overwinnen. Concreet simuleert ons gerandomiseerde positionele coderingsschema de posities van langere sequenties en selecteert het willekeurig een geordende subset die past bij de lengte van de sequentie. Onze grootschalige empirische evaluatie van 6000 modellen over 15 algoritmische redeneertaken toont aan dat onze methode Transformers in staat stelt te generaliseren naar sequenties van onbekende lengte (wat de testnauwkeurigheid gemiddeld met 12,0% verhoogt).

English

Transformers have impressive generalization capabilities on tasks with a fixed context length. However, they fail to generalize to sequences of arbitrary length, even for seemingly simple tasks such as duplicating a string. Moreover, simply training on longer sequences is inefficient due to the quadratic computation complexity of the global attention mechanism. In this work, we demonstrate that this failure mode is linked to positional encodings being out-of-distribution for longer sequences (even for relative encodings) and introduce a novel family of positional encodings that can overcome this problem. Concretely, our randomized positional encoding scheme simulates the positions of longer sequences and randomly selects an ordered subset to fit the sequence's length. Our large-scale empirical evaluation of 6000 models across 15 algorithmic reasoning tasks shows that our method allows Transformers to generalize to sequences of unseen length (increasing test accuracy by 12.0% on average).

Randomized Positionele Coderingen Verbeteren Lengtegeneralizatie van Transformers

Randomized Positional Encodings Boost Length Generalization of Transformers

Samenvatting

Support