Aprendizaje de Principios en Contexto a partir de Errores
In-Context Principle Learning from Mistakes
February 8, 2024
Autores: Tianjun Zhang, Aman Madaan, Luyu Gao, Steven Zheng, Swaroop Mishra, Yiming Yang, Niket Tandon, Uri Alon
cs.AI
Resumen
El aprendizaje en contexto (ICL, también conocido como prompting de pocos ejemplos) ha sido el método estándar para adaptar los modelos de lenguaje grandes (LLMs) a tareas específicas, aprendiendo a partir de unos pocos ejemplos de entrada-salida. Sin embargo, todos los enfoques basados en ICL solo aprenden de pares de entrada-salida correctos. En este artículo, revisitamos este paradigma, aprendiendo más de los pocos ejemplos de entrada-salida proporcionados. Introducimos Principios de Aprendizaje (LEAP): primero, inducimos intencionalmente al modelo a cometer errores en estos pocos ejemplos; luego, reflexionamos sobre estos errores y aprendemos "principios" explícitos específicos de la tarea a partir de ellos, que ayudan a resolver problemas similares y evitar errores comunes; finalmente, solicitamos al modelo que responda preguntas de prueba no vistas utilizando los pocos ejemplos originales y estos principios generales aprendidos. Evaluamos LEAP en una amplia gama de benchmarks, incluyendo respuestas a preguntas de múltiples saltos (Hotpot QA), preguntas y respuestas textuales (DROP), razonamiento de Big-Bench Hard y problemas matemáticos (GSM8K y MATH); en todos estos benchmarks, LEAP mejora los LLMs más potentes disponibles, como GPT-3.5-turbo, GPT-4, GPT-4 turbo y Claude-2.1. Por ejemplo, LEAP mejora en un 7.5% sobre el prompting estándar de pocos ejemplos utilizando GPT-4 en DROP, y en un 3.3% en HotpotQA. Es importante destacar que LEAP no requiere más entradas o ejemplos que los ajustes estándar de prompting de pocos ejemplos.
English
In-context learning (ICL, also known as few-shot prompting) has been the
standard method of adapting LLMs to downstream tasks, by learning from a few
input-output examples. Nonetheless, all ICL-based approaches only learn from
correct input-output pairs. In this paper, we revisit this paradigm, by
learning more from the few given input-output examples. We introduce Learning
Principles (LEAP): First, we intentionally induce the model to make mistakes on
these few examples; then we reflect on these mistakes, and learn explicit
task-specific "principles" from them, which help solve similar problems and
avoid common mistakes; finally, we prompt the model to answer unseen test
questions using the original few-shot examples and these learned general
principles. We evaluate LEAP on a wide range of benchmarks, including multi-hop
question answering (Hotpot QA), textual QA (DROP), Big-Bench Hard reasoning,
and math problems (GSM8K and MATH); in all these benchmarks, LEAP improves the
strongest available LLMs such as GPT-3.5-turbo, GPT-4, GPT-4 turbo and
Claude-2.1. For example, LEAP improves over the standard few-shot prompting
using GPT-4 by 7.5% in DROP, and by 3.3% in HotpotQA. Importantly, LEAP does
not require any more input or examples than the standard few-shot prompting
settings.