Sie nutzen die Repräsentationskapazität von Transformern nicht vollständig aus.
You Do Not Fully Utilize Transformer's Representation Capacity
February 13, 2025
Autoren: Gleb Gerasimov, Yaroslav Aksenov, Nikita Balagansky, Viacheslav Sinii, Daniil Gavrilov
cs.AI
Zusammenfassung
Im Gegensatz zu RNNs, die vorherige Token in einen einzelnen versteckten Zustand komprimieren, können Transformers direkt auf alle vorherigen Token zugreifen. Standard-Transformer verwenden jedoch nur Repräsentationen aus der unmittelbar vorhergehenden Schicht. In dieser Arbeit zeigen wir, dass diese Designentscheidung zu einem Repräsentationskollaps führt und eine suboptimale Leistung verursacht. Um dieses Problem zu adressieren, führen wir Layer-Integrated Memory (LIMe) ein, einen einfachen, aber leistungsstarken Ansatz, der den Gesamtspeicherbedarf des Modells beibehält, während dessen Repräsentationskapazität durch den Zugriff auf versteckte Zustände aus früheren Schichten erweitert wird. Durch umfangreiche Experimente über verschiedene Architekturen und unterschiedliche Suchmechanismen hinweg demonstrieren wir konsistente Leistungsverbesserungen bei einer Vielzahl von Aufgaben. Darüber hinaus zeigen unsere Analysen der gelernten Repräsentationsdynamik und unsere Untersuchungen von Tiefenschaltkreisen, wie LIMe Informationen über Schichten hinweg integriert, und weisen auf vielversprechende Richtungen für zukünftige Forschungen hin.
English
In contrast to RNNs, which compress previous tokens into a single hidden
state, Transformers can attend to all previous tokens directly. However,
standard Transformers only use representations from the immediately preceding
layer. In this paper, we show that this design choice causes representation
collapse and leads to suboptimal performance. To address this issue, we
introduce Layer-Integrated Memory (LIMe), a simple yet powerful approach that
preserves the model's overall memory footprint while expanding its
representational capacity by allowing access to hidden states from earlier
layers. Through extensive experiments across various architectures and
different lookup mechanisms, we demonstrate consistent performance improvements
on a wide range of tasks. Moreover, our analysis of the learned representation
dynamics and our exploration of depthwise circuits reveal how LIMe integrates
information across layers, pointing to promising directions for future
research.Summary
AI-Generated Summary