ChatPaper.aiChatPaper

Faites en sorte que votre LLM exploite pleinement le contexte

Make Your LLM Fully Utilize the Context

April 25, 2024
Auteurs: Shengnan An, Zexiong Ma, Zeqi Lin, Nanning Zheng, Jian-Guang Lou
cs.AI

Résumé

Bien que de nombreux grands modèles de langage (LLM) contemporains puissent traiter des entrées longues, ils peinent encore à exploiter pleinement les informations contenues dans un contexte étendu, un défi connu sous le nom de "lost-in-the-middle" (perte au milieu). Nous émettons l'hypothèse que cela découle d'une supervision explicite insuffisante lors de l'entraînement sur des contextes longs, qui ne met pas suffisamment l'accent sur le fait que toute position dans un contexte étendu peut contenir des informations cruciales. Sur la base de cette intuition, notre étude propose un entraînement intensif en information (IN2), une solution purement basée sur les données pour surmonter le problème de "lost-in-the-middle". Concrètement, l'entraînement IN2 s'appuie sur un ensemble de données synthétiques de questions-réponses en contexte long, où la réponse nécessite (1) une conscience fine des informations sur un segment court (~128 tokens) au sein d'un contexte long synthétique (4K-32K tokens), et (2) l'intégration et le raisonnement à partir d'informations provenant de deux segments courts ou plus. En appliquant cet entraînement intensif en information à Mistral-7B, nous présentons FILM-7B (FILl-in-the-Middle). Pour évaluer de manière approfondie la capacité de FILM-7B à exploiter des contextes longs, nous concevons trois tâches de sondage qui couvrent divers styles de contexte (document, code et contexte de données structurées) et modèles de récupération d'informations (récupération avant, arrière et bidirectionnelle). Les résultats de ces sondages montrent que FILM-7B peut récupérer de manière robuste des informations à différentes positions dans sa fenêtre de contexte de 32K. Au-delà de ces tâches de sondage, FILM-7B améliore significativement les performances sur des tâches réelles en contexte long (par exemple, un score F1 passant de 23,5 à 26,9 sur NarrativeQA), tout en maintenant des performances comparables sur des tâches en contexte court (par exemple, une précision de 59,3 à 59,2 sur MMLU). Lien Github : https://github.com/microsoft/FILM.
English
While many contemporary large language models (LLMs) can process lengthy input, they still struggle to fully utilize information within the long context, known as the lost-in-the-middle challenge. We hypothesize that it stems from insufficient explicit supervision during the long-context training, which fails to emphasize that any position in a long context can hold crucial information. Based on this intuition, our study presents information-intensive (IN2) training, a purely data-driven solution to overcome lost-in-the-middle. Specifically, IN2 training leverages a synthesized long-context question-answer dataset, where the answer requires (1) fine-grained information awareness on a short segment (~128 tokens) within a synthesized long context (4K-32K tokens), and (2) the integration and reasoning of information from two or more short segments. Through applying this information-intensive training on Mistral-7B, we present FILM-7B (FILl-in-the-Middle). To thoroughly assess the ability of FILM-7B for utilizing long contexts, we design three probing tasks that encompass various context styles (document, code, and structured-data context) and information retrieval patterns (forward, backward, and bi-directional retrieval). The probing results demonstrate that FILM-7B can robustly retrieve information from different positions in its 32K context window. Beyond these probing tasks, FILM-7B significantly improves the performance on real-world long-context tasks (e.g., 23.5->26.9 F1 score on NarrativeQA), while maintaining a comparable performance on short-context tasks (e.g., 59.3->59.2 accuracy on MMLU). Github Link: https://github.com/microsoft/FILM.

Summary

AI-Generated Summary

PDF552December 15, 2024