ChatPaper.aiChatPaper

Seu Contexto Não é um Array: Revelando Limitações de Acesso Aleatório em Transformers

Your Context Is Not an Array: Unveiling Random Access Limitations in Transformers

August 10, 2024
Autores: MohammadReza Ebrahimi, Sunny Panchal, Roland Memisevic
cs.AI

Resumo

Apesar de seus sucessos recentes, os modelos de linguagem grandes baseados em Transformadores apresentam modos de falha surpreendentes. Um exemplo bem conhecido desses modos de falha é a incapacidade de generalizar o comprimento: resolver instâncias de problemas no momento da inferência que são mais longas do que aquelas vistas durante o treinamento. Neste trabalho, exploramos mais a fundo a causa raiz dessa falha, realizando uma análise detalhada dos comportamentos do modelo na simples tarefa de paridade. Nossa análise sugere que as falhas de generalização de comprimento estão intimamente relacionadas com a incapacidade de um modelo de realizar acessos de memória aleatórios dentro de sua janela de contexto. Apresentamos evidências que apoiam essa hipótese, demonstrando a eficácia de metodologias que contornam a necessidade de indexação ou que permitem acesso aleatório a tokens indiretamente, por meio de endereçamento baseado em conteúdo. Mostramos também onde e como a falha em realizar acesso aleatório à memória se manifesta por meio de visualizações de mapas de atenção.
English
Despite their recent successes, Transformer-based large language models show surprising failure modes. A well-known example of such failure modes is their inability to length-generalize: solving problem instances at inference time that are longer than those seen during training. In this work, we further explore the root cause of this failure by performing a detailed analysis of model behaviors on the simple parity task. Our analysis suggests that length generalization failures are intricately related to a model's inability to perform random memory accesses within its context window. We present supporting evidence for this hypothesis by demonstrating the effectiveness of methodologies that circumvent the need for indexing or that enable random token access indirectly, through content-based addressing. We further show where and how the failure to perform random memory access manifests through attention map visualizations.

Summary

AI-Generated Summary

PDF102November 28, 2024