Overflow dell'Attenzione: Sfocatura dell'Input nei Modelli Linguistici durante Contesti Lunghi Raccomandazione di Elementi Mancanti
Attention Overflow: Language Model Input Blur during Long-Context Missing Items Recommendation
July 18, 2024
Autori: Damien Sileo
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) possono suggerire elementi mancanti da elementi elencati in un prompt, che possono essere utilizzati per il completamento di liste o raccomandazioni basate sulla cronologia degli utenti. Tuttavia, le loro prestazioni si degradano quando vengono presentati troppi elementi, poiché iniziano a suggerire elementi già inclusi nella lista di input. Questo fenomeno si verifica intorno ai 100 elementi per i principali LLM di metà 2024. Valutiamo questo fenomeno sia su problemi sintetici (ad esempio, trovare numeri mancanti in un intervallo di numeri interi mescolati) che su scenari realistici di raccomandazione di film. Ci riferiamo a questo problema come overflow dell'attenzione, poiché prevenire la ripetizione richiede di prestare attenzione a tutti gli elementi simultaneamente. Sebbene cicli iterativi possano mitigare questo problema, i loro costi aumentano con il tasso di ripetizione, influenzando la capacità dei modelli linguistici di derivare novità da input lunghi.
English
Large language models (LLMs) can suggest missing elements from items listed
in a prompt, which can be used for list completion or recommendations based on
users' history. However, their performance degrades when presented with too
many items, as they start to suggest items already included in the input list.
This occurs at around 100 items for mid-2024 flagship LLMs. We evaluate this
phenomenon on both synthetic problems (e.g., finding missing numbers in a given
range of shuffled integers) and realistic movie recommendation scenarios. We
refer to this issue as attention overflow, as preventing repetition
requires attending to all items simultaneously. Although iterative loops can
mitigate this problem, their costs increase with the repetition rate, affecting
the language models' ability to derive novelty from lengthy inputs.