Atención desbordada: Difuminación de la entrada del modelo de lenguaje durante contextos largos Recomendación de elementos faltantes

Resumen

Los modelos de lenguaje grandes (LLMs) pueden sugerir elementos faltantes de los elementos enumerados en un estímulo, los cuales pueden utilizarse para completar listas o hacer recomendaciones basadas en el historial de los usuarios. Sin embargo, su rendimiento se degrada cuando se presentan demasiados elementos, ya que comienzan a sugerir elementos que ya están incluidos en la lista de entrada. Esto ocurre alrededor de los 100 elementos para los LLMs insignia de mediados de 2024. Evaluamos este fenómeno tanto en problemas sintéticos (por ejemplo, encontrar números faltantes en un rango dado de enteros desordenados) como en escenarios realistas de recomendación de películas. Nos referimos a este problema como desbordamiento de atención, ya que prevenir la repetición requiere prestar atención a todos los elementos simultáneamente. Aunque los bucles iterativos pueden mitigar este problema, sus costos aumentan con la tasa de repetición, afectando la capacidad de los modelos de lenguaje para derivar novedad de entradas extensas.

English

Large language models (LLMs) can suggest missing elements from items listed in a prompt, which can be used for list completion or recommendations based on users' history. However, their performance degrades when presented with too many items, as they start to suggest items already included in the input list. This occurs at around 100 items for mid-2024 flagship LLMs. We evaluate this phenomenon on both synthetic problems (e.g., finding missing numbers in a given range of shuffled integers) and realistic movie recommendation scenarios. We refer to this issue as attention overflow, as preventing repetition requires attending to all items simultaneously. Although iterative loops can mitigate this problem, their costs increase with the repetition rate, affecting the language models' ability to derive novelty from lengthy inputs.

Atención desbordada: Difuminación de la entrada del modelo de lenguaje durante contextos largos Recomendación de elementos faltantes

Attention Overflow: Language Model Input Blur during Long-Context Missing Items Recommendation

Resumen

Support