ChatPaper.aiChatPaper

Найденное посередине: Калибровка смещения позиционного внимания улучшает использование длинного контекста.

Found in the Middle: Calibrating Positional Attention Bias Improves Long Context Utilization

June 23, 2024
Авторы: Cheng-Yu Hsieh, Yung-Sung Chuang, Chun-Liang Li, Zifeng Wang, Long T. Le, Abhishek Kumar, James Glass, Alexander Ratner, Chen-Yu Lee, Ranjay Krishna, Tomas Pfister
cs.AI

Аннотация

Большие языковые модели (LLM), даже когда специально обучены обрабатывать длинные контексты ввода, испытывают трудности с захватом актуальной информации, расположенной посередине их ввода. Это явление известно как проблема потерянного в середине. В данной работе мы вносим три вклада. Во-первых, мы стремимся понять факторы, вызывающие это явление. При этом мы устанавливаем связь между потерянным в середине и внутренним внимательным уклоном LLM: LLM демонстрируют уклон внимания в форме буквы U, где токены в начале и в конце его ввода получают более высокое внимание, независимо от их значимости. Во-вторых, мы смягчаем этот позиционный уклон через механизм калибровки, найденный посередине, который позволяет модели обращать внимание на контексты верно в соответствии с их значимостью, даже если они находятся посередине. В-третьих, мы показываем, что найденный посередине не только достигает лучшей производительности в поиске актуальной информации в длинном контексте, но также в конечном итоге приводит к улучшенной производительности в генерации с использованием аугментированного поиска (RAG) по различным задачам, превосходя существующие методы на до 15 процентных пунктов. Эти результаты открывают перспективы для понимания уклона внимания LLM и его потенциальных последствий.
English
Large language models (LLMs), even when specifically trained to process long input contexts, struggle to capture relevant information located in the middle of their input. This phenomenon has been known as the lost-in-the-middle problem. In this work, we make three contributions. First, we set out to understand the factors that cause this phenomenon. In doing so, we establish a connection between lost-in-the-middle to LLMs' intrinsic attention bias: LLMs exhibit a U-shaped attention bias where the tokens at the beginning and at the end of its input receive higher attention, regardless of their relevance. Second, we mitigate this positional bias through a calibration mechanism, found-in-the-middle, that allows the model to attend to contexts faithfully according to their relevance, even though when they are in the middle. Third, we show found-in-the-middle not only achieves better performance in locating relevant information within a long context, but also eventually leads to improved retrieval-augmented generation (RAG) performance across various tasks, outperforming existing methods by up to 15 percentage points. These findings open up future directions in understanding LLM attention bias and its potential consequences.

Summary

AI-Generated Summary

PDF61November 29, 2024