Sie nutzen die Repräsentationskapazität von Transformern nicht vollständig aus.

papers.abstract

Im Gegensatz zu RNNs, die vorherige Token in einen einzelnen versteckten Zustand komprimieren, können Transformers direkt auf alle vorherigen Token zugreifen. Standard-Transformer verwenden jedoch nur Repräsentationen aus der unmittelbar vorhergehenden Schicht. In dieser Arbeit zeigen wir, dass diese Designentscheidung zu einem Repräsentationskollaps führt und eine suboptimale Leistung verursacht. Um dieses Problem zu adressieren, führen wir Layer-Integrated Memory (LIMe) ein, einen einfachen, aber leistungsstarken Ansatz, der den Gesamtspeicherbedarf des Modells beibehält, während dessen Repräsentationskapazität durch den Zugriff auf versteckte Zustände aus früheren Schichten erweitert wird. Durch umfangreiche Experimente über verschiedene Architekturen und unterschiedliche Suchmechanismen hinweg demonstrieren wir konsistente Leistungsverbesserungen bei einer Vielzahl von Aufgaben. Darüber hinaus zeigen unsere Analysen der gelernten Repräsentationsdynamik und unsere Untersuchungen von Tiefenschaltkreisen, wie LIMe Informationen über Schichten hinweg integriert, und weisen auf vielversprechende Richtungen für zukünftige Forschungen hin.

English

In contrast to RNNs, which compress previous tokens into a single hidden state, Transformers can attend to all previous tokens directly. However, standard Transformers only use representations from the immediately preceding layer. In this paper, we show that this design choice causes representation collapse and leads to suboptimal performance. To address this issue, we introduce Layer-Integrated Memory (LIMe), a simple yet powerful approach that preserves the model's overall memory footprint while expanding its representational capacity by allowing access to hidden states from earlier layers. Through extensive experiments across various architectures and different lookup mechanisms, we demonstrate consistent performance improvements on a wide range of tasks. Moreover, our analysis of the learned representation dynamics and our exploration of depthwise circuits reveal how LIMe integrates information across layers, pointing to promising directions for future research.

Sie nutzen die Repräsentationskapazität von Transformern nicht vollständig aus.

You Do Not Fully Utilize Transformer's Representation Capacity

papers.abstract

Support