Atención desbordada: Difuminación de la entrada del modelo de lenguaje durante contextos largos Recomendación de elementos faltantes
Attention Overflow: Language Model Input Blur during Long-Context Missing Items Recommendation
July 18, 2024
Autores: Damien Sileo
cs.AI
Resumen
Los modelos de lenguaje grandes (LLMs) pueden sugerir elementos faltantes de los elementos enumerados en un estímulo, los cuales pueden utilizarse para completar listas o hacer recomendaciones basadas en el historial de los usuarios. Sin embargo, su rendimiento se degrada cuando se presentan demasiados elementos, ya que comienzan a sugerir elementos que ya están incluidos en la lista de entrada. Esto ocurre alrededor de los 100 elementos para los LLMs insignia de mediados de 2024. Evaluamos este fenómeno tanto en problemas sintéticos (por ejemplo, encontrar números faltantes en un rango dado de enteros desordenados) como en escenarios realistas de recomendación de películas. Nos referimos a este problema como desbordamiento de atención, ya que prevenir la repetición requiere prestar atención a todos los elementos simultáneamente. Aunque los bucles iterativos pueden mitigar este problema, sus costos aumentan con la tasa de repetición, afectando la capacidad de los modelos de lenguaje para derivar novedad de entradas extensas.
English
Large language models (LLMs) can suggest missing elements from items listed
in a prompt, which can be used for list completion or recommendations based on
users' history. However, their performance degrades when presented with too
many items, as they start to suggest items already included in the input list.
This occurs at around 100 items for mid-2024 flagship LLMs. We evaluate this
phenomenon on both synthetic problems (e.g., finding missing numbers in a given
range of shuffled integers) and realistic movie recommendation scenarios. We
refer to this issue as attention overflow, as preventing repetition
requires attending to all items simultaneously. Although iterative loops can
mitigate this problem, their costs increase with the repetition rate, affecting
the language models' ability to derive novelty from lengthy inputs.Summary
AI-Generated Summary