Haz que tu LLM utilice plenamente el contexto
Make Your LLM Fully Utilize the Context
April 25, 2024
Autores: Shengnan An, Zexiong Ma, Zeqi Lin, Nanning Zheng, Jian-Guang Lou
cs.AI
Resumen
Si bien muchos modelos de lenguaje grandes (LLMs) contemporáneos pueden procesar entradas extensas, aún tienen dificultades para utilizar completamente la información dentro de contextos largos, un desafío conocido como "lost-in-the-middle" (perdido en el medio). Nuestra hipótesis es que esto se debe a una supervisión explícita insuficiente durante el entrenamiento de contextos largos, que no enfatiza que cualquier posición en un contexto extenso puede contener información crucial. Basándonos en esta intuición, nuestro estudio presenta el entrenamiento intensivo en información (IN2), una solución puramente basada en datos para superar el problema de "lost-in-the-middle". Específicamente, el entrenamiento IN2 aprovecha un conjunto de datos sintetizado de preguntas y respuestas de contexto largo, donde la respuesta requiere (1) conciencia de información detallada en un segmento corto (~128 tokens) dentro de un contexto largo sintetizado (4K-32K tokens), y (2) la integración y razonamiento de información de dos o más segmentos cortos. Al aplicar este entrenamiento intensivo en información a Mistral-7B, presentamos FILM-7B (FILl-in-the-Middle). Para evaluar exhaustivamente la capacidad de FILM-7B para utilizar contextos largos, diseñamos tres tareas de sondeo que abarcan diversos estilos de contexto (documento, código y contexto de datos estructurados) y patrones de recuperación de información (recuperación hacia adelante, hacia atrás y bidireccional). Los resultados de sondeo demuestran que FILM-7B puede recuperar información de manera robusta desde diferentes posiciones en su ventana de contexto de 32K. Más allá de estas tareas de sondeo, FILM-7B mejora significativamente el rendimiento en tareas del mundo real de contexto largo (por ejemplo, un aumento de 23.5 a 26.9 en la puntuación F1 en NarrativeQA), mientras mantiene un rendimiento comparable en tareas de contexto corto (por ejemplo, 59.3 a 59.2 de precisión en MMLU). Enlace de Github: https://github.com/microsoft/FILM.
English
While many contemporary large language models (LLMs) can process lengthy
input, they still struggle to fully utilize information within the long
context, known as the lost-in-the-middle challenge. We hypothesize that it
stems from insufficient explicit supervision during the long-context training,
which fails to emphasize that any position in a long context can hold crucial
information. Based on this intuition, our study presents information-intensive
(IN2) training, a purely data-driven solution to overcome lost-in-the-middle.
Specifically, IN2 training leverages a synthesized long-context question-answer
dataset, where the answer requires (1) fine-grained information awareness on a
short segment (~128 tokens) within a synthesized long context (4K-32K tokens),
and (2) the integration and reasoning of information from two or more short
segments. Through applying this information-intensive training on Mistral-7B,
we present FILM-7B (FILl-in-the-Middle). To thoroughly assess the ability of
FILM-7B for utilizing long contexts, we design three probing tasks that
encompass various context styles (document, code, and structured-data context)
and information retrieval patterns (forward, backward, and bi-directional
retrieval). The probing results demonstrate that FILM-7B can robustly retrieve
information from different positions in its 32K context window. Beyond these
probing tasks, FILM-7B significantly improves the performance on real-world
long-context tasks (e.g., 23.5->26.9 F1 score on NarrativeQA), while
maintaining a comparable performance on short-context tasks (e.g., 59.3->59.2
accuracy on MMLU). Github Link: https://github.com/microsoft/FILM.Summary
AI-Generated Summary