Atenção Overflow: Desfoque de Entrada do Modelo de Linguagem durante Contextos Longos Recomendação de Itens Ausentes
Attention Overflow: Language Model Input Blur during Long-Context Missing Items Recommendation
July 18, 2024
Autores: Damien Sileo
cs.AI
Resumo
Grandes modelos de linguagem (LLMs) podem sugerir elementos ausentes de itens listados em um prompt, que podem ser usados para completar listas ou recomendações com base no histórico dos usuários. No entanto, seu desempenho degrada quando apresentados com muitos itens, pois começam a sugerir itens já incluídos na lista de entrada. Isso ocorre em torno de 100 itens para os LLMs emblemáticos de meados de 2024. Avaliamos esse fenômeno tanto em problemas sintéticos (por exemplo, encontrar números ausentes em um intervalo de inteiros embaralhados) quanto em cenários realistas de recomendação de filmes. Referimo-nos a esse problema como overflow de atenção, pois evitar a repetição requer atenção a todos os itens simultaneamente. Embora loops iterativos possam mitigar esse problema, seus custos aumentam com a taxa de repetição, afetando a capacidade dos modelos de linguagem de derivar novidade de entradas extensas.
English
Large language models (LLMs) can suggest missing elements from items listed
in a prompt, which can be used for list completion or recommendations based on
users' history. However, their performance degrades when presented with too
many items, as they start to suggest items already included in the input list.
This occurs at around 100 items for mid-2024 flagship LLMs. We evaluate this
phenomenon on both synthetic problems (e.g., finding missing numbers in a given
range of shuffled integers) and realistic movie recommendation scenarios. We
refer to this issue as attention overflow, as preventing repetition
requires attending to all items simultaneously. Although iterative loops can
mitigate this problem, their costs increase with the repetition rate, affecting
the language models' ability to derive novelty from lengthy inputs.