ChatPaper.aiChatPaper

Encontrado no Meio: Calibrando o Viés de Atenção Posicional Melhora a Utilização de Contexto Longo

Found in the Middle: Calibrating Positional Attention Bias Improves Long Context Utilization

June 23, 2024
Autores: Cheng-Yu Hsieh, Yung-Sung Chuang, Chun-Liang Li, Zifeng Wang, Long T. Le, Abhishek Kumar, James Glass, Alexander Ratner, Chen-Yu Lee, Ranjay Krishna, Tomas Pfister
cs.AI

Resumo

Grandes modelos de linguagem (LLMs), mesmo quando especificamente treinados para processar contextos de entrada longos, têm dificuldade em capturar informações relevantes localizadas no meio de sua entrada. Esse fenômeno é conhecido como o problema do perdido-no-meio. Neste trabalho, fazemos três contribuições. Primeiramente, buscamos compreender os fatores que causam esse fenômeno. Ao fazê-lo, estabelecemos uma conexão entre perdido-no-meio e o viés de atenção intrínseco dos LLMs: os LLMs exibem um viés de atenção em forma de U, onde os tokens no início e no final de sua entrada recebem mais atenção, independentemente de sua relevância. Em segundo lugar, mitigamos esse viés posicional por meio de um mecanismo de calibração, encontrado-no-meio, que permite ao modelo atender aos contextos fielmente de acordo com sua relevância, mesmo quando estão no meio. Em terceiro lugar, mostramos que encontrado-no-meio não apenas alcança melhor desempenho na localização de informações relevantes dentro de um contexto longo, mas também leva eventualmente a um melhor desempenho de geração aumentada por recuperação (RAG) em várias tarefas, superando métodos existentes em até 15 pontos percentuais. Essas descobertas abrem futuras direções na compreensão do viés de atenção dos LLMs e suas potenciais consequências.
English
Large language models (LLMs), even when specifically trained to process long input contexts, struggle to capture relevant information located in the middle of their input. This phenomenon has been known as the lost-in-the-middle problem. In this work, we make three contributions. First, we set out to understand the factors that cause this phenomenon. In doing so, we establish a connection between lost-in-the-middle to LLMs' intrinsic attention bias: LLMs exhibit a U-shaped attention bias where the tokens at the beginning and at the end of its input receive higher attention, regardless of their relevance. Second, we mitigate this positional bias through a calibration mechanism, found-in-the-middle, that allows the model to attend to contexts faithfully according to their relevance, even though when they are in the middle. Third, we show found-in-the-middle not only achieves better performance in locating relevant information within a long context, but also eventually leads to improved retrieval-augmented generation (RAG) performance across various tasks, outperforming existing methods by up to 15 percentage points. These findings open up future directions in understanding LLM attention bias and its potential consequences.
PDF61November 29, 2024