Aprendizado de Princípios em Contexto a Partir de Erros

Resumo

O aprendizado em contexto (ICL, também conhecido como _few-shot prompting_) tem sido o método padrão para adaptar LLMs a tarefas subsequentes, aprendendo a partir de alguns exemplos de entrada-saída. No entanto, todas as abordagens baseadas em ICL aprendem apenas a partir de pares corretos de entrada-saída. Neste artigo, revisitamos esse paradigma, aprendendo mais a partir dos poucos exemplos de entrada-saída fornecidos. Introduzimos os Princípios de Aprendizado (LEAP): Primeiro, induzimos intencionalmente o modelo a cometer erros nesses poucos exemplos; em seguida, refletimos sobre esses erros e aprendemos "princípios" explícitos específicos da tarefa a partir deles, que ajudam a resolver problemas semelhantes e a evitar erros comuns; finalmente, solicitamos que o modelo responda a perguntas de teste não vistas usando os exemplos originais de _few-shot_ e esses princípios gerais aprendidos. Avaliamos o LEAP em uma ampla gama de benchmarks, incluindo questionamento de múltiplos saltos (Hotpot QA), questionamento textual (DROP), raciocínio do Big-Bench Hard e problemas matemáticos (GSM8K e MATH); em todos esses benchmarks, o LEAP melhora os LLMs mais robustos disponíveis, como GPT-3.5-turbo, GPT-4, GPT-4 turbo e Claude-2.1. Por exemplo, o LEAP supera o _few-shot prompting_ padrão usando GPT-4 em 7,5% no DROP e em 3,3% no HotpotQA. Importante destacar que o LEAP não requer mais entradas ou exemplos do que as configurações padrão de _few-shot prompting_.

English

In-context learning (ICL, also known as few-shot prompting) has been the standard method of adapting LLMs to downstream tasks, by learning from a few input-output examples. Nonetheless, all ICL-based approaches only learn from correct input-output pairs. In this paper, we revisit this paradigm, by learning more from the few given input-output examples. We introduce Learning Principles (LEAP): First, we intentionally induce the model to make mistakes on these few examples; then we reflect on these mistakes, and learn explicit task-specific "principles" from them, which help solve similar problems and avoid common mistakes; finally, we prompt the model to answer unseen test questions using the original few-shot examples and these learned general principles. We evaluate LEAP on a wide range of benchmarks, including multi-hop question answering (Hotpot QA), textual QA (DROP), Big-Bench Hard reasoning, and math problems (GSM8K and MATH); in all these benchmarks, LEAP improves the strongest available LLMs such as GPT-3.5-turbo, GPT-4, GPT-4 turbo and Claude-2.1. For example, LEAP improves over the standard few-shot prompting using GPT-4 by 7.5% in DROP, and by 3.3% in HotpotQA. Importantly, LEAP does not require any more input or examples than the standard few-shot prompting settings.

Aprendizado de Princípios em Contexto a Partir de Erros

In-Context Principle Learning from Mistakes

Resumo

Support