ChatPaper.aiChatPaper

No aprovechas completamente la capacidad de representación del Transformer.

You Do Not Fully Utilize Transformer's Representation Capacity

February 13, 2025
Autores: Gleb Gerasimov, Yaroslav Aksenov, Nikita Balagansky, Viacheslav Sinii, Daniil Gavrilov
cs.AI

Resumen

A diferencia de las RNN, que comprimen los tokens anteriores en un único estado oculto, los Transformers pueden atender directamente a todos los tokens previos. Sin embargo, los Transformers estándar solo utilizan representaciones de la capa inmediatamente anterior. En este artículo, demostramos que esta elección de diseño provoca un colapso en las representaciones y conduce a un rendimiento subóptimo. Para abordar este problema, introducimos la Memoria Integrada por Capas (LIMe), un enfoque simple pero potente que preserva la huella de memoria general del modelo mientras expande su capacidad representativa al permitir el acceso a estados ocultos de capas anteriores. A través de experimentos exhaustivos en diversas arquitecturas y mecanismos de búsqueda, demostramos mejoras consistentes en el rendimiento en una amplia gama de tareas. Además, nuestro análisis de la dinámica de las representaciones aprendidas y nuestra exploración de circuitos en profundidad revelan cómo LIMe integra información a través de las capas, señalando direcciones prometedoras para futuras investigaciones.
English
In contrast to RNNs, which compress previous tokens into a single hidden state, Transformers can attend to all previous tokens directly. However, standard Transformers only use representations from the immediately preceding layer. In this paper, we show that this design choice causes representation collapse and leads to suboptimal performance. To address this issue, we introduce Layer-Integrated Memory (LIMe), a simple yet powerful approach that preserves the model's overall memory footprint while expanding its representational capacity by allowing access to hidden states from earlier layers. Through extensive experiments across various architectures and different lookup mechanisms, we demonstrate consistent performance improvements on a wide range of tasks. Moreover, our analysis of the learned representation dynamics and our exploration of depthwise circuits reveal how LIMe integrates information across layers, pointing to promising directions for future research.

Summary

AI-Generated Summary

PDF383February 19, 2025