Aandachtsoverloop: Taalmodelinvoervervaging tijdens Lange-Context Ontbrekende Items Aanbeveling
Attention Overflow: Language Model Input Blur during Long-Context Missing Items Recommendation
July 18, 2024
Auteurs: Damien Sileo
cs.AI
Samenvatting
Grote taalmmodellen (LLMs) kunnen ontbrekende elementen suggereren uit items die in een prompt worden opgesomd, wat kan worden gebruikt voor het voltooien van lijsten of aanbevelingen op basis van de geschiedenis van gebruikers. Hun prestaties nemen echter af wanneer ze met te veel items worden geconfronteerd, omdat ze dan items gaan suggereren die al in de invoerlijst zijn opgenomen. Dit gebeurt bij ongeveer 100 items voor topmodellen van LLMs uit midden 2024. We evalueren dit fenomeen zowel op synthetische problemen (bijvoorbeeld het vinden van ontbrekende getallen in een gegeven bereik van geschudde gehele getallen) als op realistische scenario's voor filmaanbevelingen. We verwijzen naar dit probleem als aandachtsoverloop, omdat het voorkomen van herhaling vereist dat alle items tegelijkertijd worden geattendeerd. Hoewel iteratieve lussen dit probleem kunnen verzachten, nemen hun kosten toe met de herhalingsfrequentie, wat het vermogen van de taalmmodellen om nieuwigheid uit lange invoeren te halen, beïnvloedt.
English
Large language models (LLMs) can suggest missing elements from items listed
in a prompt, which can be used for list completion or recommendations based on
users' history. However, their performance degrades when presented with too
many items, as they start to suggest items already included in the input list.
This occurs at around 100 items for mid-2024 flagship LLMs. We evaluate this
phenomenon on both synthetic problems (e.g., finding missing numbers in a given
range of shuffled integers) and realistic movie recommendation scenarios. We
refer to this issue as attention overflow, as preventing repetition
requires attending to all items simultaneously. Although iterative loops can
mitigate this problem, their costs increase with the repetition rate, affecting
the language models' ability to derive novelty from lengthy inputs.