Aprendizaje de Principios en Contexto a partir de Errores

Resumen

El aprendizaje en contexto (ICL, también conocido como prompting de pocos ejemplos) ha sido el método estándar para adaptar los modelos de lenguaje grandes (LLMs) a tareas específicas, aprendiendo a partir de unos pocos ejemplos de entrada-salida. Sin embargo, todos los enfoques basados en ICL solo aprenden de pares de entrada-salida correctos. En este artículo, revisitamos este paradigma, aprendiendo más de los pocos ejemplos de entrada-salida proporcionados. Introducimos Principios de Aprendizaje (LEAP): primero, inducimos intencionalmente al modelo a cometer errores en estos pocos ejemplos; luego, reflexionamos sobre estos errores y aprendemos "principios" explícitos específicos de la tarea a partir de ellos, que ayudan a resolver problemas similares y evitar errores comunes; finalmente, solicitamos al modelo que responda preguntas de prueba no vistas utilizando los pocos ejemplos originales y estos principios generales aprendidos. Evaluamos LEAP en una amplia gama de benchmarks, incluyendo respuestas a preguntas de múltiples saltos (Hotpot QA), preguntas y respuestas textuales (DROP), razonamiento de Big-Bench Hard y problemas matemáticos (GSM8K y MATH); en todos estos benchmarks, LEAP mejora los LLMs más potentes disponibles, como GPT-3.5-turbo, GPT-4, GPT-4 turbo y Claude-2.1. Por ejemplo, LEAP mejora en un 7.5% sobre el prompting estándar de pocos ejemplos utilizando GPT-4 en DROP, y en un 3.3% en HotpotQA. Es importante destacar que LEAP no requiere más entradas o ejemplos que los ajustes estándar de prompting de pocos ejemplos.

English

In-context learning (ICL, also known as few-shot prompting) has been the standard method of adapting LLMs to downstream tasks, by learning from a few input-output examples. Nonetheless, all ICL-based approaches only learn from correct input-output pairs. In this paper, we revisit this paradigm, by learning more from the few given input-output examples. We introduce Learning Principles (LEAP): First, we intentionally induce the model to make mistakes on these few examples; then we reflect on these mistakes, and learn explicit task-specific "principles" from them, which help solve similar problems and avoid common mistakes; finally, we prompt the model to answer unseen test questions using the original few-shot examples and these learned general principles. We evaluate LEAP on a wide range of benchmarks, including multi-hop question answering (Hotpot QA), textual QA (DROP), Big-Bench Hard reasoning, and math problems (GSM8K and MATH); in all these benchmarks, LEAP improves the strongest available LLMs such as GPT-3.5-turbo, GPT-4, GPT-4 turbo and Claude-2.1. For example, LEAP improves over the standard few-shot prompting using GPT-4 by 7.5% in DROP, and by 3.3% in HotpotQA. Importantly, LEAP does not require any more input or examples than the standard few-shot prompting settings.

Aprendizaje de Principios en Contexto a partir de Errores

In-Context Principle Learning from Mistakes

Resumen

Support