ChatPaper.aiChatPaper

Ihr Kontext ist kein Array: Enthüllung der Einschränkungen des zufälligen Zugriffs in Transformern

Your Context Is Not an Array: Unveiling Random Access Limitations in Transformers

August 10, 2024
Autoren: MohammadReza Ebrahimi, Sunny Panchal, Roland Memisevic
cs.AI

Zusammenfassung

Trotz ihrer jüngsten Erfolge zeigen Transformer-basierte große Sprachmodelle überraschende Fehlermodi. Ein bekanntes Beispiel für solche Fehlermodi ist ihre Unfähigkeit zur Längenverallgemeinerung: das Lösen von Probleminstanzen zur Inferenzzeit, die länger sind als die während des Trainings gesehenen. In dieser Arbeit erkunden wir die Ursache dieses Fehlers weiter, indem wir eine detaillierte Analyse des Verhaltens des Modells bei der einfachen Paritätsaufgabe durchführen. Unsere Analyse legt nahe, dass Fehler bei der Längenverallgemeinerung eng mit der Unfähigkeit eines Modells verbunden sind, zufällige Speicherzugriffe innerhalb seines Kontextfensters durchzuführen. Wir präsentieren unterstützende Beweise für diese Hypothese, indem wir die Wirksamkeit von Methodologien aufzeigen, die die Notwendigkeit von Indizierung umgehen oder zufälligen Tokenzugriff indirekt ermöglichen, durch inhaltsbasierte Adressierung. Darüber hinaus zeigen wir, wo und wie das Versagen bei zufälligen Speicherzugriffen durch Visualisierungen von Aufmerksamkeitskarten sichtbar wird.
English
Despite their recent successes, Transformer-based large language models show surprising failure modes. A well-known example of such failure modes is their inability to length-generalize: solving problem instances at inference time that are longer than those seen during training. In this work, we further explore the root cause of this failure by performing a detailed analysis of model behaviors on the simple parity task. Our analysis suggests that length generalization failures are intricately related to a model's inability to perform random memory accesses within its context window. We present supporting evidence for this hypothesis by demonstrating the effectiveness of methodologies that circumvent the need for indexing or that enable random token access indirectly, through content-based addressing. We further show where and how the failure to perform random memory access manifests through attention map visualizations.

Summary

AI-Generated Summary

PDF102November 28, 2024