Aufmerksamkeitsüberlauf: Verschwommene Eingabe des Sprachmodells bei langer Kontextdauer Empfehlung fehlender Elemente
Attention Overflow: Language Model Input Blur during Long-Context Missing Items Recommendation
July 18, 2024
Autoren: Damien Sileo
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) können fehlende Elemente aus in einem Eingabereiz aufgelisteten Elementen vorschlagen, die für die Vervollständigung von Listen oder Empfehlungen basierend auf der Historie der Benutzer verwendet werden können. Ihre Leistung nimmt jedoch ab, wenn ihnen zu viele Elemente präsentiert werden, da sie anfangen, Elemente vorzuschlagen, die bereits in der Eingabeliste enthalten sind. Dies tritt bei etwa 100 Elementen für Flaggschiff-LLMs Mitte 2024 auf. Wir bewerten dieses Phänomen sowohl anhand synthetischer Probleme (z. B. das Auffinden fehlender Zahlen in einem gegebenen Bereich von durcheinandergewürfelten Ganzzahlen) als auch anhand realistischer Szenarien für Filmpersonalisierung. Wir bezeichnen dieses Problem als Aufmerksamkeitsüberlauf, da das Verhindern von Wiederholungen erfordert, dass alle Elemente gleichzeitig beachtet werden. Obwohl iterative Schleifen dieses Problem mildern können, steigen ihre Kosten mit der Wiederholungsrate, was sich auf die Fähigkeit der Sprachmodelle auswirkt, Neuheit aus umfangreichen Eingaben abzuleiten.
English
Large language models (LLMs) can suggest missing elements from items listed
in a prompt, which can be used for list completion or recommendations based on
users' history. However, their performance degrades when presented with too
many items, as they start to suggest items already included in the input list.
This occurs at around 100 items for mid-2024 flagship LLMs. We evaluate this
phenomenon on both synthetic problems (e.g., finding missing numbers in a given
range of shuffled integers) and realistic movie recommendation scenarios. We
refer to this issue as attention overflow, as preventing repetition
requires attending to all items simultaneously. Although iterative loops can
mitigate this problem, their costs increase with the repetition rate, affecting
the language models' ability to derive novelty from lengthy inputs.Summary
AI-Generated Summary