Apprentissage des Principes en Contexte à partir des Erreurs

papers.abstract

L'apprentissage en contexte (ICL, également connu sous le nom de *few-shot prompting*) a été la méthode standard pour adapter les modèles de langage de grande taille (LLMs) à des tâches en aval, en apprenant à partir de quelques exemples d'entrées-sorties. Cependant, toutes les approches basées sur l'ICL n'apprennent qu'à partir de paires d'entrées-sorties correctes. Dans cet article, nous revisitons ce paradigme en tirant davantage parti des quelques exemples d'entrées-sorties fournis. Nous introduisons les *Learning Principles* (LEAP) : d'abord, nous incitons intentionnellement le modèle à commettre des erreurs sur ces quelques exemples ; ensuite, nous réfléchissons à ces erreurs et en tirons des "principes" explicites spécifiques à la tâche, qui aident à résoudre des problèmes similaires et à éviter les erreurs courantes ; enfin, nous incitons le modèle à répondre à des questions de test inédites en utilisant les exemples *few-shot* originaux et ces principes généraux appris. Nous évaluons LEAP sur un large éventail de benchmarks, notamment la réponse à des questions à sauts multiples (Hotpot QA), la réponse à des questions textuelles (DROP), le raisonnement Big-Bench Hard et les problèmes mathématiques (GSM8K et MATH) ; sur tous ces benchmarks, LEAP améliore les LLMs les plus performants disponibles, tels que GPT-3.5-turbo, GPT-4, GPT-4 turbo et Claude-2.1. Par exemple, LEAP améliore de 7,5 % le *few-shot prompting* standard avec GPT-4 sur DROP et de 3,3 % sur HotpotQA. Il est important de noter que LEAP ne nécessite pas plus d'entrées ou d'exemples que les paramètres standard du *few-shot prompting*.

English

In-context learning (ICL, also known as few-shot prompting) has been the standard method of adapting LLMs to downstream tasks, by learning from a few input-output examples. Nonetheless, all ICL-based approaches only learn from correct input-output pairs. In this paper, we revisit this paradigm, by learning more from the few given input-output examples. We introduce Learning Principles (LEAP): First, we intentionally induce the model to make mistakes on these few examples; then we reflect on these mistakes, and learn explicit task-specific "principles" from them, which help solve similar problems and avoid common mistakes; finally, we prompt the model to answer unseen test questions using the original few-shot examples and these learned general principles. We evaluate LEAP on a wide range of benchmarks, including multi-hop question answering (Hotpot QA), textual QA (DROP), Big-Bench Hard reasoning, and math problems (GSM8K and MATH); in all these benchmarks, LEAP improves the strongest available LLMs such as GPT-3.5-turbo, GPT-4, GPT-4 turbo and Claude-2.1. For example, LEAP improves over the standard few-shot prompting using GPT-4 by 7.5% in DROP, and by 3.3% in HotpotQA. Importantly, LEAP does not require any more input or examples than the standard few-shot prompting settings.

Apprentissage des Principes en Contexte à partir des Erreurs

In-Context Principle Learning from Mistakes

papers.abstract

Support