ChatPaper.aiChatPaper

Résoudre le problème des Transformers grâce à l'Attention Contrainte Colinéaire

Cure the headache of Transformers via Collinear Constrained Attention

September 15, 2023
Auteurs: Shiyi Zhu, Jing Ye, Wei Jiang, Qi Zhang, Yifan Wu, Jianguo Li
cs.AI

Résumé

Alors que la progression rapide des applications pratiques basées sur les grands modèles de langage (LLM) se poursuit, l'importance de l'extrapolation des performances a augmenté de manière exponentielle dans le domaine de la recherche. Dans notre étude, nous avons identifié un comportement anormal dans les modèles Transformer qui avait été précédemment négligé, entraînant un chaos autour des tokens les plus proches portant les informations les plus importantes. Nous avons baptisé cette découverte le "mal de tête des Transformers". Pour résoudre ce problème à sa racine, nous avons introduit une nouvelle structure d'auto-attention nommée Collinear Constrained Attention (CoCA). Cette structure peut être intégrée de manière transparente avec les méthodes d'extrapolation, d'interpolation existantes et d'autres stratégies d'optimisation conçues pour les modèles Transformer traditionnels. Nous avons obtenu d'excellentes performances d'extrapolation, même pour des longueurs de séquence de 16 à 24 fois supérieures lors de l'inférence, sans aucun réglage fin de notre modèle. Nous avons également amélioré l'efficacité computationnelle et spatiale de CoCA pour garantir sa praticabilité. Nous prévoyons de rendre CoCA open-source prochainement. En attendant, nous avons mis notre code à disposition dans l'annexe pour permettre la reproduction des expériences.
English
As the rapid progression of practical applications based on Large Language Models continues, the importance of extrapolating performance has grown exponentially in the research domain. In our study, we identified an anomalous behavior in Transformer models that had been previously overlooked, leading to a chaos around closest tokens which carried the most important information. We've coined this discovery the "headache of Transformers". To address this at its core, we introduced a novel self-attention structure named Collinear Constrained Attention (CoCA). This structure can be seamlessly integrated with existing extrapolation, interpolation methods, and other optimization strategies designed for traditional Transformer models. We have achieved excellent extrapolating performance even for 16 times to 24 times of sequence lengths during inference without any fine-tuning on our model. We have also enhanced CoCA's computational and spatial efficiency to ensure its practicality. We plan to open-source CoCA shortly. In the meantime, we've made our code available in the appendix for reappearing experiments.
PDF136December 15, 2024