ChatPaper.aiChatPaper

Revisitando el Aprendizaje en Contexto con Modelos de Lenguaje de Largo Contexto

Revisiting In-Context Learning with Long Context Language Models

December 22, 2024
Autores: Jinheon Baek, Sun Jae Lee, Prakhar Gupta, Geunseob, Oh, Siddharth Dalmia, Prateek Kolhar
cs.AI

Resumen

El Aprendizaje en Contexto (ICL, por sus siglas en inglés) es una técnica mediante la cual los modelos de lenguaje realizan predicciones basadas en ejemplos proporcionados en su contexto de entrada. Anteriormente, el tamaño de la ventana de contexto imponía un límite en la cantidad de ejemplos que podían mostrarse, lo que hacía que las técnicas de selección de ejemplos fueran cruciales para identificar el conjunto de ejemplos más efectivo. Sin embargo, el reciente surgimiento de Modelos de Lenguaje de Contexto Largo (LCLMs) ha aumentado significativamente la cantidad de ejemplos que pueden incluirse en el contexto, planteando la importante cuestión de si el rendimiento del ICL en un régimen de muchas muestras sigue siendo sensible al método de selección de muestras. Para responder a esto, revisitamos estos enfoques en el contexto de LCLMs a través de experimentos extensos en 18 conjuntos de datos que abarcan 4 tareas. Sorprendentemente, observamos que las técnicas sofisticadas de selección de ejemplos no producen mejoras significativas sobre un método simple de selección de muestras al azar. En cambio, encontramos que el surgimiento de LCLMs ha cambiado fundamentalmente el desafío del ICL, pasando de seleccionar los ejemplos más efectivos a recopilar suficientes ejemplos para llenar la ventana de contexto. Específicamente, en ciertos conjuntos de datos, incluir todos los ejemplos disponibles no aprovecha completamente la ventana de contexto; sin embargo, al aumentar los ejemplos en contexto con un enfoque simple de aumento de datos, mejoramos sustancialmente el rendimiento del ICL en un 5%.
English
In-Context Learning (ICL) is a technique by which language models make predictions based on examples provided in their input context. Previously, their context window size imposed a limit on the number of examples that can be shown, making example selection techniques crucial for identifying the maximally effective set of examples. However, the recent advent of Long Context Language Models (LCLMs) has significantly increased the number of examples that can be included in context, raising an important question of whether ICL performance in a many-shot regime is still sensitive to the method of sample selection. To answer this, we revisit these approaches in the context of LCLMs through extensive experiments on 18 datasets spanning 4 tasks. Surprisingly, we observe that sophisticated example selection techniques do not yield significant improvements over a simple random sample selection method. Instead, we find that the advent of LCLMs has fundamentally shifted the challenge of ICL from that of selecting the most effective examples to that of collecting sufficient examples to fill the context window. Specifically, in certain datasets, including all available examples does not fully utilize the context window; however, by augmenting the examples in context with a simple data augmentation approach, we substantially improve ICL performance by 5%.

Summary

AI-Generated Summary

PDF332December 24, 2024