I Modelli Linguistici di Grandi Dimensioni come Ragionatori Analogici
Large Language Models as Analogical Reasoners
October 3, 2023
Autori: Michihiro Yasunaga, Xinyun Chen, Yujia Li, Panupong Pasupat, Jure Leskovec, Percy Liang, Ed H. Chi, Denny Zhou
cs.AI
Abstract
Il prompting a catena di pensiero (Chain-of-Thought, CoT) per i modelli linguistici dimostra prestazioni impressionanti in compiti di ragionamento, ma tipicamente richiede esempi etichettati del processo di ragionamento. In questo lavoro, introduciamo un nuovo approccio di prompting, il Prompting Analogico, progettato per guidare automaticamente il processo di ragionamento dei grandi modelli linguistici. Ispirato dal ragionamento analogico, un processo cognitivo in cui gli esseri umani attingono da esperienze passate rilevanti per affrontare nuovi problemi, il nostro approccio spinge i modelli linguistici a generare autonomamente esempi o conoscenze rilevanti nel contesto, prima di procedere a risolvere il problema dato. Questo metodo presenta diversi vantaggi: elimina la necessità di etichettare o recuperare esempi, offrendo generalità e convenienza; può anche adattare gli esempi e le conoscenze generate a ciascun problema, garantendo adattabilità. I risultati sperimentali mostrano che il nostro approccio supera il CoT a zero colpi (0-shot) e il CoT manuale a pochi colpi (few-shot) in una varietà di compiti di ragionamento, inclusa la risoluzione di problemi matematici in GSM8K e MATH, la generazione di codice in Codeforces e altri compiti di ragionamento in BIG-Bench.
English
Chain-of-thought (CoT) prompting for language models demonstrates impressive
performance across reasoning tasks, but typically needs labeled exemplars of
the reasoning process. In this work, we introduce a new prompting approach,
Analogical Prompting, designed to automatically guide the reasoning process of
large language models. Inspired by analogical reasoning, a cognitive process in
which humans draw from relevant past experiences to tackle new problems, our
approach prompts language models to self-generate relevant exemplars or
knowledge in the context, before proceeding to solve the given problem. This
method presents several advantages: it obviates the need for labeling or
retrieving exemplars, offering generality and convenience; it can also tailor
the generated exemplars and knowledge to each problem, offering adaptability.
Experimental results show that our approach outperforms 0-shot CoT and manual
few-shot CoT in a variety of reasoning tasks, including math problem solving in
GSM8K and MATH, code generation in Codeforces, and other reasoning tasks in
BIG-Bench.