ChatPaper.aiChatPaper

Рандомизированные позиционные кодировки улучшают обобщение длины в трансформерах

Randomized Positional Encodings Boost Length Generalization of Transformers

May 26, 2023
Авторы: Anian Ruoss, Grégoire Delétang, Tim Genewein, Jordi Grau-Moya, Róbert Csordás, Mehdi Bennani, Shane Legg, Joel Veness
cs.AI

Аннотация

Трансформеры демонстрируют впечатляющие способности к обобщению на задачах с фиксированной длиной контекста. Однако они не способны обобщать на последовательности произвольной длины, даже для, казалось бы, простых задач, таких как дублирование строки. Более того, простое обучение на более длинных последовательностях неэффективно из-за квадратичной вычислительной сложности глобального механизма внимания. В данной работе мы показываем, что эта проблема связана с тем, что позиционные кодировки оказываются вне распределения для более длинных последовательностей (даже для относительных кодировок), и представляем новое семейство позиционных кодировок, способных преодолеть эту трудность. Конкретно, наша схема рандомизированных позиционных кодировок моделирует позиции более длинных последовательностей и случайным образом выбирает упорядоченное подмножество, соответствующее длине последовательности. Наше масштабное эмпирическое исследование 6000 моделей на 15 задачах алгоритмического рассуждения показывает, что наш метод позволяет трансформерам обобщать на последовательности невиданной длины (увеличивая точность на тестовых данных в среднем на 12,0%).
English
Transformers have impressive generalization capabilities on tasks with a fixed context length. However, they fail to generalize to sequences of arbitrary length, even for seemingly simple tasks such as duplicating a string. Moreover, simply training on longer sequences is inefficient due to the quadratic computation complexity of the global attention mechanism. In this work, we demonstrate that this failure mode is linked to positional encodings being out-of-distribution for longer sequences (even for relative encodings) and introduce a novel family of positional encodings that can overcome this problem. Concretely, our randomized positional encoding scheme simulates the positions of longer sequences and randomly selects an ordered subset to fit the sequence's length. Our large-scale empirical evaluation of 6000 models across 15 algorithmic reasoning tasks shows that our method allows Transformers to generalize to sequences of unseen length (increasing test accuracy by 12.0% on average).
PDF20December 15, 2024