Débordement de l'attention : flou des entrées des modèles de langage dans les contextes longs Recommandation d'éléments manquants

papers.abstract

Les grands modèles de langage (LLM) peuvent suggérer des éléments manquants dans une liste fournie dans une invite, ce qui peut être utilisé pour compléter des listes ou faire des recommandations basées sur l'historique des utilisateurs. Cependant, leur performance se dégrade lorsqu'ils sont confrontés à un trop grand nombre d'éléments, car ils commencent à suggérer des éléments déjà présents dans la liste d'entrée. Ce phénomène se produit généralement autour de 100 éléments pour les LLM phares de mi-2024. Nous évaluons ce phénomène à la fois sur des problèmes synthétiques (par exemple, trouver des nombres manquants dans une plage d'entiers mélangés) et sur des scénarios réalistes de recommandation de films. Nous qualifions ce problème de débordement attentionnel, car éviter les répétitions nécessite de prendre en compte tous les éléments simultanément. Bien que des boucles itératives puissent atténuer ce problème, leur coût augmente avec le taux de répétition, affectant la capacité des modèles de langage à générer de la nouveauté à partir d'entrées longues.

English

Large language models (LLMs) can suggest missing elements from items listed in a prompt, which can be used for list completion or recommendations based on users' history. However, their performance degrades when presented with too many items, as they start to suggest items already included in the input list. This occurs at around 100 items for mid-2024 flagship LLMs. We evaluate this phenomenon on both synthetic problems (e.g., finding missing numbers in a given range of shuffled integers) and realistic movie recommendation scenarios. We refer to this issue as attention overflow, as preventing repetition requires attending to all items simultaneously. Although iterative loops can mitigate this problem, their costs increase with the repetition rate, affecting the language models' ability to derive novelty from lengthy inputs.

Débordement de l'attention : flou des entrées des modèles de langage dans les contextes longs Recommandation d'éléments manquants

Attention Overflow: Language Model Input Blur during Long-Context Missing Items Recommendation

papers.abstract

Support