ChatPaper.aiChatPaper

Comprendiendo el Aprendizaje en Contexto mediante Datos de Pretrenamiento de Apoyo

Understanding In-Context Learning via Supportive Pretraining Data

June 26, 2023
Autores: Xiaochuang Han, Daniel Simig, Todor Mihaylov, Yulia Tsvetkov, Asli Celikyilmaz, Tianlu Wang
cs.AI

Resumen

El aprendizaje en contexto (ICL, por sus siglas en inglés) mejora el rendimiento de los modelos de lenguaje en una variedad de tareas de PLN simplemente mostrando unos pocos ejemplos durante el tiempo de inferencia. No se comprende bien por qué surge la capacidad de ICL, ya que el modelo nunca ha sido entrenado específicamente en tales demostraciones. A diferencia de trabajos previos que exploran los mecanismos implícitos detrás del ICL, nosotros estudiamos el ICL investigando los datos de preentrenamiento. Específicamente, primero adaptamos un enfoque iterativo basado en gradientes para encontrar un subconjunto pequeño de datos de preentrenamiento que respalda el ICL. Observamos que un preentrenamiento continuado en este pequeño subconjunto mejora significativamente la capacidad de ICL del modelo, hasta en un 18%. Luego, comparamos este subconjunto de apoyo de manera contrastiva con subconjuntos aleatorios de datos de preentrenamiento y descubrimos: (1) Los datos de preentrenamiento que respaldan el ICL no tienen una mayor relevancia de dominio con respecto a las tareas posteriores. (2) Los datos de preentrenamiento de apoyo contienen una mayor cantidad de tokens raros y de cola larga. (3) Los datos de preentrenamiento de apoyo son ejemplos desafiantes donde la ganancia de información del contexto de largo alcance está por debajo del promedio, lo que indica que aprender a incorporar contextos de largo alcance difíciles fomenta el ICL. Nuestro trabajo da un primer paso hacia la comprensión del ICL mediante el análisis de datos de preentrenamiento a nivel de instancia. Nuestros hallazgos tienen el potencial de mejorar la capacidad de ICL de los modelos de lenguaje al guiar activamente la construcción de datos de preentrenamiento en el futuro.
English
In-context learning (ICL) improves language models' performance on a variety of NLP tasks by simply demonstrating a handful of examples at inference time. It is not well understood why ICL ability emerges, as the model has never been specifically trained on such demonstrations. Unlike prior work that explores implicit mechanisms behind ICL, we study ICL via investigating the pretraining data. Specifically, we first adapt an iterative, gradient-based approach to find a small subset of pretraining data that supports ICL. We observe that a continued pretraining on this small subset significantly improves the model's ICL ability, by up to 18%. We then compare the supportive subset constrastively with random subsets of pretraining data and discover: (1) The supportive pretraining data to ICL do not have a higher domain relevance to downstream tasks. (2) The supportive pretraining data have a higher mass of rarely occurring, long-tail tokens. (3) The supportive pretraining data are challenging examples where the information gain from long-range context is below average, indicating learning to incorporate difficult long-range context encourages ICL. Our work takes a first step towards understanding ICL via analyzing instance-level pretraining data. Our insights have a potential to enhance the ICL ability of language models by actively guiding the construction of pretraining data in the future.
PDF61December 15, 2024