ChatPaper.aiChatPaper

Transformeur Focalisé : Entraînement Contrastif pour l'Étendue du Contexte

Focused Transformer: Contrastive Training for Context Scaling

July 6, 2023
Auteurs: Szymon Tworkowski, Konrad Staniszewski, Mikołaj Pacek, Yuhuai Wu, Henryk Michalewski, Piotr Miłoś
cs.AI

Résumé

Les grands modèles de langage possèdent une capacité exceptionnelle à intégrer de nouvelles informations de manière contextuelle. Cependant, le plein potentiel d'une telle approche est souvent limité par une contrainte liée à la longueur effective du contexte. Une solution à ce problème consiste à doter une couche d'attention d'un accès à une mémoire externe, composée de paires (clé, valeur). Pourtant, à mesure que le nombre de documents augmente, la proportion de clés pertinentes par rapport aux clés non pertinentes diminue, amenant le modèle à se concentrer davantage sur les clés non pertinentes. Nous identifions un défi majeur, appelé le problème de distraction, où des clés associées à différentes valeurs sémantiques peuvent se chevaucher, les rendant difficiles à distinguer. Pour résoudre ce problème, nous introduisons le Focused Transformer (FoT), une technique qui utilise un processus d'entraînement inspiré de l'apprentissage contrastif. Cette approche novatrice améliore la structure de l'espace (clé, valeur), permettant d'étendre la longueur du contexte. Notre méthode permet d'affiner des modèles préexistants à grande échelle pour allonger leur contexte effectif. Cela est démontré par notre affinage des points de contrôle OpenLLaMA de 3B et 7B. Les modèles résultants, que nous nommons LongLLaMA, montrent des avancées dans les tâches nécessitant un contexte long. Nous illustrons en outre que nos modèles LongLLaMA gèrent habilement une longueur de contexte de 256 k pour la récupération de clés secrètes.
English
Large language models have an exceptional capability to incorporate new information in a contextual manner. However, the full potential of such an approach is often restrained due to a limitation in the effective context length. One solution to this issue is to endow an attention layer with access to an external memory, which comprises of (key, value) pairs. Yet, as the number of documents increases, the proportion of relevant keys to irrelevant ones decreases, leading the model to focus more on the irrelevant keys. We identify a significant challenge, dubbed the distraction issue, where keys linked to different semantic values might overlap, making them hard to distinguish. To tackle this problem, we introduce the Focused Transformer (FoT), a technique that employs a training process inspired by contrastive learning. This novel approach enhances the structure of the (key, value) space, enabling an extension of the context length. Our method allows for fine-tuning pre-existing, large-scale models to lengthen their effective context. This is demonstrated by our fine-tuning of 3B and 7B OpenLLaMA checkpoints. The resulting models, which we name LongLLaMA, exhibit advancements in tasks requiring a long context. We further illustrate that our LongLLaMA models adeptly manage a 256 k context length for passkey retrieval.
PDF111December 15, 2024