Il tuo contesto non è un array: svelare le limitazioni dell'accesso casuale nei Transformer

Abstract

Nonostante i loro recenti successi, i modelli linguistici su larga scala basati su Transformer mostrano modalità di fallimento sorprendenti. Un esempio ben noto di tali modalità di fallimento è la loro incapacità di generalizzare in base alla lunghezza: risolvere istanze di problemi durante l'inferenza che sono più lunghe di quelle osservate durante l'addestramento. In questo lavoro, esploriamo ulteriormente la causa principale di questo fallimento eseguendo un'analisi dettagliata dei comportamenti del modello sul semplice compito di parità. La nostra analisi suggerisce che i fallimenti nella generalizzazione della lunghezza sono strettamente correlati all'incapacità di un modello di eseguire accessi casuali alla memoria all'interno della sua finestra contestuale. Presentiamo prove a sostegno di questa ipotesi dimostrando l'efficacia di metodologie che aggirano la necessità di indicizzazione o che consentono l'accesso casuale ai token indirettamente, attraverso l'indirizzamento basato sul contenuto. Mostriamo inoltre dove e come si manifesta il fallimento nell'eseguire accessi casuali alla memoria attraverso visualizzazioni delle mappe di attenzione.

English

Despite their recent successes, Transformer-based large language models show surprising failure modes. A well-known example of such failure modes is their inability to length-generalize: solving problem instances at inference time that are longer than those seen during training. In this work, we further explore the root cause of this failure by performing a detailed analysis of model behaviors on the simple parity task. Our analysis suggests that length generalization failures are intricately related to a model's inability to perform random memory accesses within its context window. We present supporting evidence for this hypothesis by demonstrating the effectiveness of methodologies that circumvent the need for indexing or that enable random token access indirectly, through content-based addressing. We further show where and how the failure to perform random memory access manifests through attention map visualizations.

Il tuo contesto non è un array: svelare le limitazioni dell'accesso casuale nei Transformer

Your Context Is Not an Array: Unveiling Random Access Limitations in Transformers

Abstract

Support