Избавьтесь от головной боли Transformers с помощью коллинеарного ограниченного внимания
Cure the headache of Transformers via Collinear Constrained Attention
September 15, 2023
Авторы: Shiyi Zhu, Jing Ye, Wei Jiang, Qi Zhang, Yifan Wu, Jianguo Li
cs.AI
Аннотация
По мере стремительного развития практических приложений, основанных на больших языковых моделях, важность экстраполяции производительности в исследовательской области возросла экспоненциально. В нашем исследовании мы выявили аномальное поведение моделей Transformer, которое ранее оставалось незамеченным, что привело к хаосу вокруг ближайших токенов, несущих наиболее важную информацию. Мы назвали это открытие "головной болью Transformer". Для решения этой проблемы на фундаментальном уровне мы предложили новую структуру самовнимания под названием Collinear Constrained Attention (CoCA). Эта структура может быть легко интегрирована с существующими методами экстраполяции, интерполяции и другими стратегиями оптимизации, разработанными для традиционных моделей Transformer. Мы достигли превосходной производительности при экстраполяции даже для последовательностей длиной в 16–24 раза без необходимости тонкой настройки нашей модели. Мы также повысили вычислительную и пространственную эффективность CoCA, чтобы обеспечить её практическую применимость. В ближайшее время мы планируем открыть исходный код CoCA. Тем временем мы предоставили наш код в приложении для воспроизведения экспериментов.
English
As the rapid progression of practical applications based on Large Language
Models continues, the importance of extrapolating performance has grown
exponentially in the research domain. In our study, we identified an anomalous
behavior in Transformer models that had been previously overlooked, leading to
a chaos around closest tokens which carried the most important information.
We've coined this discovery the "headache of Transformers". To address this at
its core, we introduced a novel self-attention structure named Collinear
Constrained Attention (CoCA). This structure can be seamlessly integrated with
existing extrapolation, interpolation methods, and other optimization
strategies designed for traditional Transformer models. We have achieved
excellent extrapolating performance even for 16 times to 24 times of sequence
lengths during inference without any fine-tuning on our model. We have also
enhanced CoCA's computational and spatial efficiency to ensure its
practicality. We plan to open-source CoCA shortly. In the meantime, we've made
our code available in the appendix for reappearing experiments.