Seu Contexto Não é um Array: Revelando Limitações de Acesso Aleatório em Transformers
Your Context Is Not an Array: Unveiling Random Access Limitations in Transformers
August 10, 2024
Autores: MohammadReza Ebrahimi, Sunny Panchal, Roland Memisevic
cs.AI
Resumo
Apesar de seus sucessos recentes, os modelos de linguagem grandes baseados em Transformadores apresentam modos de falha surpreendentes. Um exemplo bem conhecido desses modos de falha é a incapacidade de generalizar o comprimento: resolver instâncias de problemas no momento da inferência que são mais longas do que aquelas vistas durante o treinamento. Neste trabalho, exploramos mais a fundo a causa raiz dessa falha, realizando uma análise detalhada dos comportamentos do modelo na simples tarefa de paridade. Nossa análise sugere que as falhas de generalização de comprimento estão intimamente relacionadas com a incapacidade de um modelo de realizar acessos de memória aleatórios dentro de sua janela de contexto. Apresentamos evidências que apoiam essa hipótese, demonstrando a eficácia de metodologias que contornam a necessidade de indexação ou que permitem acesso aleatório a tokens indiretamente, por meio de endereçamento baseado em conteúdo. Mostramos também onde e como a falha em realizar acesso aleatório à memória se manifesta por meio de visualizações de mapas de atenção.
English
Despite their recent successes, Transformer-based large language models show
surprising failure modes. A well-known example of such failure modes is their
inability to length-generalize: solving problem instances at inference time
that are longer than those seen during training. In this work, we further
explore the root cause of this failure by performing a detailed analysis of
model behaviors on the simple parity task. Our analysis suggests that length
generalization failures are intricately related to a model's inability to
perform random memory accesses within its context window. We present supporting
evidence for this hypothesis by demonstrating the effectiveness of
methodologies that circumvent the need for indexing or that enable random token
access indirectly, through content-based addressing. We further show where and
how the failure to perform random memory access manifests through attention map
visualizations.Summary
AI-Generated Summary