Atenção Overflow: Desfoque de Entrada do Modelo de Linguagem durante Contextos Longos Recomendação de Itens Ausentes

Resumo

Grandes modelos de linguagem (LLMs) podem sugerir elementos ausentes de itens listados em um prompt, que podem ser usados para completar listas ou recomendações com base no histórico dos usuários. No entanto, seu desempenho degrada quando apresentados com muitos itens, pois começam a sugerir itens já incluídos na lista de entrada. Isso ocorre em torno de 100 itens para os LLMs emblemáticos de meados de 2024. Avaliamos esse fenômeno tanto em problemas sintéticos (por exemplo, encontrar números ausentes em um intervalo de inteiros embaralhados) quanto em cenários realistas de recomendação de filmes. Referimo-nos a esse problema como overflow de atenção, pois evitar a repetição requer atenção a todos os itens simultaneamente. Embora loops iterativos possam mitigar esse problema, seus custos aumentam com a taxa de repetição, afetando a capacidade dos modelos de linguagem de derivar novidade de entradas extensas.

English

Large language models (LLMs) can suggest missing elements from items listed in a prompt, which can be used for list completion or recommendations based on users' history. However, their performance degrades when presented with too many items, as they start to suggest items already included in the input list. This occurs at around 100 items for mid-2024 flagship LLMs. We evaluate this phenomenon on both synthetic problems (e.g., finding missing numbers in a given range of shuffled integers) and realistic movie recommendation scenarios. We refer to this issue as attention overflow, as preventing repetition requires attending to all items simultaneously. Although iterative loops can mitigate this problem, their costs increase with the repetition rate, affecting the language models' ability to derive novelty from lengthy inputs.

Atenção Overflow: Desfoque de Entrada do Modelo de Linguagem durante Contextos Longos Recomendação de Itens Ausentes

Attention Overflow: Language Model Input Blur during Long-Context Missing Items Recommendation

Resumo

Support