In-Context Principe Leren van Fouten

Samenvatting

In-context learning (ICL, ook bekend als few-shot prompting) is de standaardmethode geweest om grote taalmodellen (LLMs) aan te passen aan downstream taken, door te leren van een paar invoer-uitvoervoorbeelden. Echter, alle ICL-gebaseerde benaderingen leren alleen van correcte invoer-uitvoerparen. In dit artikel herzien we dit paradigma door meer te leren van de weinige gegeven invoer-uitvoervoorbeelden. We introduceren Learning Principles (LEAP): eerst zorgen we er opzettelijk voor dat het model fouten maakt op deze weinige voorbeelden; vervolgens reflecteren we op deze fouten en leren expliciete taakspecifieke "principes" ervan, die helpen bij het oplossen van vergelijkbare problemen en het vermijden van veelgemaakte fouten; ten slotte vragen we het model om onbekende testvragen te beantwoorden met behulp van de originele few-shot voorbeelden en deze geleerde algemene principes. We evalueren LEAP op een breed scala aan benchmarks, waaronder multi-hop vraagbeantwoording (Hotpot QA), tekstuele vraagbeantwoording (DROP), Big-Bench Hard redenering, en wiskundige problemen (GSM8K en MATH); in al deze benchmarks verbetert LEAP de sterkst beschikbare LLMs zoals GPT-3.5-turbo, GPT-4, GPT-4 turbo en Claude-2.1. Zo verbetert LEAP bijvoorbeeld de standaard few-shot prompting met GPT-4 met 7,5% in DROP, en met 3,3% in HotpotQA. Belangrijk is dat LEAP niet meer invoer of voorbeelden vereist dan de standaard few-shot prompting instellingen.

English

In-context learning (ICL, also known as few-shot prompting) has been the standard method of adapting LLMs to downstream tasks, by learning from a few input-output examples. Nonetheless, all ICL-based approaches only learn from correct input-output pairs. In this paper, we revisit this paradigm, by learning more from the few given input-output examples. We introduce Learning Principles (LEAP): First, we intentionally induce the model to make mistakes on these few examples; then we reflect on these mistakes, and learn explicit task-specific "principles" from them, which help solve similar problems and avoid common mistakes; finally, we prompt the model to answer unseen test questions using the original few-shot examples and these learned general principles. We evaluate LEAP on a wide range of benchmarks, including multi-hop question answering (Hotpot QA), textual QA (DROP), Big-Bench Hard reasoning, and math problems (GSM8K and MATH); in all these benchmarks, LEAP improves the strongest available LLMs such as GPT-3.5-turbo, GPT-4, GPT-4 turbo and Claude-2.1. For example, LEAP improves over the standard few-shot prompting using GPT-4 by 7.5% in DROP, and by 3.3% in HotpotQA. Importantly, LEAP does not require any more input or examples than the standard few-shot prompting settings.

In-Context Principe Leren van Fouten

In-Context Principle Learning from Mistakes

Samenvatting

Support