Ihr Kontext ist kein Array: Enthüllung der Einschränkungen des zufälligen Zugriffs in Transformern
Your Context Is Not an Array: Unveiling Random Access Limitations in Transformers
August 10, 2024
Autoren: MohammadReza Ebrahimi, Sunny Panchal, Roland Memisevic
cs.AI
Zusammenfassung
Trotz ihrer jüngsten Erfolge zeigen Transformer-basierte große Sprachmodelle überraschende Fehlermodi. Ein bekanntes Beispiel für solche Fehlermodi ist ihre Unfähigkeit zur Längenverallgemeinerung: das Lösen von Probleminstanzen zur Inferenzzeit, die länger sind als die während des Trainings gesehenen. In dieser Arbeit erkunden wir die Ursache dieses Fehlers weiter, indem wir eine detaillierte Analyse des Verhaltens des Modells bei der einfachen Paritätsaufgabe durchführen. Unsere Analyse legt nahe, dass Fehler bei der Längenverallgemeinerung eng mit der Unfähigkeit eines Modells verbunden sind, zufällige Speicherzugriffe innerhalb seines Kontextfensters durchzuführen. Wir präsentieren unterstützende Beweise für diese Hypothese, indem wir die Wirksamkeit von Methodologien aufzeigen, die die Notwendigkeit von Indizierung umgehen oder zufälligen Tokenzugriff indirekt ermöglichen, durch inhaltsbasierte Adressierung. Darüber hinaus zeigen wir, wo und wie das Versagen bei zufälligen Speicherzugriffen durch Visualisierungen von Aufmerksamkeitskarten sichtbar wird.
English
Despite their recent successes, Transformer-based large language models show
surprising failure modes. A well-known example of such failure modes is their
inability to length-generalize: solving problem instances at inference time
that are longer than those seen during training. In this work, we further
explore the root cause of this failure by performing a detailed analysis of
model behaviors on the simple parity task. Our analysis suggests that length
generalization failures are intricately related to a model's inability to
perform random memory accesses within its context window. We present supporting
evidence for this hypothesis by demonstrating the effectiveness of
methodologies that circumvent the need for indexing or that enable random token
access indirectly, through content-based addressing. We further show where and
how the failure to perform random memory access manifests through attention map
visualizations.Summary
AI-Generated Summary