Faça Seu LLM Utilizar Totalmente o Contexto
Make Your LLM Fully Utilize the Context
April 25, 2024
Autores: Shengnan An, Zexiong Ma, Zeqi Lin, Nanning Zheng, Jian-Guang Lou
cs.AI
Resumo
Embora muitos modelos de linguagem de grande escala (LLMs) contemporâneos possam processar entradas extensas, eles ainda enfrentam dificuldades para utilizar plenamente as informações dentro de contextos longos, um desafio conhecido como "lost-in-the-middle" (perdido-no-meio). Nossa hipótese é que isso decorre de supervisão explícita insuficiente durante o treinamento de contextos longos, que não enfatiza que qualquer posição em um contexto longo pode conter informações cruciais. Com base nessa intuição, nosso estudo apresenta o treinamento intensivo em informações (IN2), uma solução puramente orientada por dados para superar o problema do "lost-in-the-middle". Especificamente, o treinamento IN2 utiliza um conjunto de dados sintetizado de perguntas e respostas de contexto longo, onde a resposta requer (1) consciência de informações em nível granular em um segmento curto (~128 tokens) dentro de um contexto longo sintetizado (4K-32K tokens), e (2) a integração e raciocínio de informações de dois ou mais segmentos curtos. Ao aplicar esse treinamento intensivo em informações ao Mistral-7B, apresentamos o FILM-7B (FILl-in-the-Middle). Para avaliar minuciosamente a capacidade do FILM-7B de utilizar contextos longos, projetamos três tarefas de sondagem que abrangem diversos estilos de contexto (documento, código e contexto de dados estruturados) e padrões de recuperação de informações (recuperação direta, inversa e bidirecional). Os resultados das sondagens demonstram que o FILM-7B pode recuperar informações de forma robusta em diferentes posições em sua janela de contexto de 32K. Além dessas tarefas de sondagem, o FILM-7B melhora significativamente o desempenho em tarefas reais de contexto longo (por exemplo, pontuação F1 de 23,5->26,9 no NarrativeQA), enquanto mantém um desempenho comparável em tarefas de contexto curto (por exemplo, precisão de 59,3->59,2 no MMLU). Link do Github: https://github.com/microsoft/FILM.
English
While many contemporary large language models (LLMs) can process lengthy
input, they still struggle to fully utilize information within the long
context, known as the lost-in-the-middle challenge. We hypothesize that it
stems from insufficient explicit supervision during the long-context training,
which fails to emphasize that any position in a long context can hold crucial
information. Based on this intuition, our study presents information-intensive
(IN2) training, a purely data-driven solution to overcome lost-in-the-middle.
Specifically, IN2 training leverages a synthesized long-context question-answer
dataset, where the answer requires (1) fine-grained information awareness on a
short segment (~128 tokens) within a synthesized long context (4K-32K tokens),
and (2) the integration and reasoning of information from two or more short
segments. Through applying this information-intensive training on Mistral-7B,
we present FILM-7B (FILl-in-the-Middle). To thoroughly assess the ability of
FILM-7B for utilizing long contexts, we design three probing tasks that
encompass various context styles (document, code, and structured-data context)
and information retrieval patterns (forward, backward, and bi-directional
retrieval). The probing results demonstrate that FILM-7B can robustly retrieve
information from different positions in its 32K context window. Beyond these
probing tasks, FILM-7B significantly improves the performance on real-world
long-context tasks (e.g., 23.5->26.9 F1 score on NarrativeQA), while
maintaining a comparable performance on short-context tasks (e.g., 59.3->59.2
accuracy on MMLU). Github Link: https://github.com/microsoft/FILM.