Débordement de l'attention : flou des entrées des modèles de langage dans les contextes longs Recommandation d'éléments manquants
Attention Overflow: Language Model Input Blur during Long-Context Missing Items Recommendation
July 18, 2024
Auteurs: Damien Sileo
cs.AI
Résumé
Les grands modèles de langage (LLM) peuvent suggérer des éléments manquants dans une liste fournie dans une invite, ce qui peut être utilisé pour compléter des listes ou faire des recommandations basées sur l'historique des utilisateurs. Cependant, leur performance se dégrade lorsqu'ils sont confrontés à un trop grand nombre d'éléments, car ils commencent à suggérer des éléments déjà présents dans la liste d'entrée. Ce phénomène se produit généralement autour de 100 éléments pour les LLM phares de mi-2024. Nous évaluons ce phénomène à la fois sur des problèmes synthétiques (par exemple, trouver des nombres manquants dans une plage d'entiers mélangés) et sur des scénarios réalistes de recommandation de films. Nous qualifions ce problème de débordement attentionnel, car éviter les répétitions nécessite de prendre en compte tous les éléments simultanément. Bien que des boucles itératives puissent atténuer ce problème, leur coût augmente avec le taux de répétition, affectant la capacité des modèles de langage à générer de la nouveauté à partir d'entrées longues.
English
Large language models (LLMs) can suggest missing elements from items listed
in a prompt, which can be used for list completion or recommendations based on
users' history. However, their performance degrades when presented with too
many items, as they start to suggest items already included in the input list.
This occurs at around 100 items for mid-2024 flagship LLMs. We evaluate this
phenomenon on both synthetic problems (e.g., finding missing numbers in a given
range of shuffled integers) and realistic movie recommendation scenarios. We
refer to this issue as attention overflow, as preventing repetition
requires attending to all items simultaneously. Although iterative loops can
mitigate this problem, their costs increase with the repetition rate, affecting
the language models' ability to derive novelty from lengthy inputs.Summary
AI-Generated Summary