Aprendendo a Pular as Camadas Intermediárias dos Transformers
Learning to Skip the Middle Layers of Transformers
June 26, 2025
Autores: Tim Lawson, Laurence Aitchison
cs.AI
Resumo
A computação condicional é uma estratégia popular para tornar os Transformers mais eficientes. Os métodos existentes geralmente visam módulos individuais (por exemplo, camadas de mistura de especialistas) ou pulam camadas de forma independente. No entanto, pesquisas em interpretabilidade demonstraram que as camadas intermediárias dos Transformers exibem maior redundância e que as camadas iniciais agregam informações em posições de tokens. Guiados por essas percepções, propomos uma nova arquitetura que dinamicamente pula um número variável de camadas a partir do meio para fora. Em particular, um mecanismo de portão aprendido determina se deve ignorar um intervalo simétrico de blocos centrais com base na entrada, e um mecanismo de atenção com portão impede que tokens subsequentes atendam a posições de tokens puladas. As normas residuais são controladas com um esquema de 'sanduíche' ou 'perilayernorm', e a esparsidade do portão é regulada por uma perda de regularização adaptativa. Nosso objetivo era reduzir os requisitos de computação para tokens 'mais simples' e potencialmente promover uma hierarquia representacional emergente em múltiplos níveis, mas, nas escalas investigadas, nossa abordagem não alcança melhorias na relação entre entropia cruzada de validação e FLOPs estimados em comparação com baselines densas com menos camadas. Disponibilizamos nosso código em https://github.com/tim-lawson/skip-middle.
English
Conditional computation is a popular strategy to make Transformers more
efficient. Existing methods often target individual modules (e.g.,
mixture-of-experts layers) or skip layers independently of one another.
However, interpretability research has demonstrated that the middle layers of
Transformers exhibit greater redundancy, and that early layers aggregate
information into token positions. Guided by these insights, we propose a novel
architecture that dynamically skips a variable number of layers from the middle
outward. In particular, a learned gating mechanism determines whether to bypass
a symmetric span of central blocks based on the input, and a gated attention
mechanism prevents subsequent tokens from attending to skipped token positions.
Residual norms are controlled with a 'sandwich' or 'perilayernorm' scheme and
gate sparsity with an adaptive regularization loss. We had aimed to reduce
compute requirements for 'simpler' tokens and potentially foster an emergent
multi-level representational hierarchy but, at the scales investigated, our
approach does not achieve improvements in the trade-off between validation
cross-entropy and estimated FLOPs compared to dense baselines with fewer
layers. We release our code at https://github.com/tim-lawson/skip-middle.