Faça Seu LLM Utilizar Totalmente o Contexto

Resumo

Embora muitos modelos de linguagem de grande escala (LLMs) contemporâneos possam processar entradas extensas, eles ainda enfrentam dificuldades para utilizar plenamente as informações dentro de contextos longos, um desafio conhecido como "lost-in-the-middle" (perdido-no-meio). Nossa hipótese é que isso decorre de supervisão explícita insuficiente durante o treinamento de contextos longos, que não enfatiza que qualquer posição em um contexto longo pode conter informações cruciais. Com base nessa intuição, nosso estudo apresenta o treinamento intensivo em informações (IN2), uma solução puramente orientada por dados para superar o problema do "lost-in-the-middle". Especificamente, o treinamento IN2 utiliza um conjunto de dados sintetizado de perguntas e respostas de contexto longo, onde a resposta requer (1) consciência de informações em nível granular em um segmento curto (~128 tokens) dentro de um contexto longo sintetizado (4K-32K tokens), e (2) a integração e raciocínio de informações de dois ou mais segmentos curtos. Ao aplicar esse treinamento intensivo em informações ao Mistral-7B, apresentamos o FILM-7B (FILl-in-the-Middle). Para avaliar minuciosamente a capacidade do FILM-7B de utilizar contextos longos, projetamos três tarefas de sondagem que abrangem diversos estilos de contexto (documento, código e contexto de dados estruturados) e padrões de recuperação de informações (recuperação direta, inversa e bidirecional). Os resultados das sondagens demonstram que o FILM-7B pode recuperar informações de forma robusta em diferentes posições em sua janela de contexto de 32K. Além dessas tarefas de sondagem, o FILM-7B melhora significativamente o desempenho em tarefas reais de contexto longo (por exemplo, pontuação F1 de 23,5->26,9 no NarrativeQA), enquanto mantém um desempenho comparável em tarefas de contexto curto (por exemplo, precisão de 59,3->59,2 no MMLU). Link do Github: https://github.com/microsoft/FILM.

English

While many contemporary large language models (LLMs) can process lengthy input, they still struggle to fully utilize information within the long context, known as the lost-in-the-middle challenge. We hypothesize that it stems from insufficient explicit supervision during the long-context training, which fails to emphasize that any position in a long context can hold crucial information. Based on this intuition, our study presents information-intensive (IN2) training, a purely data-driven solution to overcome lost-in-the-middle. Specifically, IN2 training leverages a synthesized long-context question-answer dataset, where the answer requires (1) fine-grained information awareness on a short segment (~128 tokens) within a synthesized long context (4K-32K tokens), and (2) the integration and reasoning of information from two or more short segments. Through applying this information-intensive training on Mistral-7B, we present FILM-7B (FILl-in-the-Middle). To thoroughly assess the ability of FILM-7B for utilizing long contexts, we design three probing tasks that encompass various context styles (document, code, and structured-data context) and information retrieval patterns (forward, backward, and bi-directional retrieval). The probing results demonstrate that FILM-7B can robustly retrieve information from different positions in its 32K context window. Beyond these probing tasks, FILM-7B significantly improves the performance on real-world long-context tasks (e.g., 23.5->26.9 F1 score on NarrativeQA), while maintaining a comparable performance on short-context tasks (e.g., 59.3->59.2 accuracy on MMLU). Github Link: https://github.com/microsoft/FILM.

Faça Seu LLM Utilizar Totalmente o Contexto

Make Your LLM Fully Utilize the Context

Resumo

Support