L'ARTE del perfezionamento degli LLM: Chiedi, Affina e Fidati
The ART of LLM Refinement: Ask, Refine, and Trust
November 14, 2023
Autori: Kumar Shridhar, Koustuv Sinha, Andrew Cohen, Tianlu Wang, Ping Yu, Ram Pasunuru, Mrinmaya Sachan, Jason Weston, Asli Celikyilmaz
cs.AI
Abstract
Negli ultimi anni, i Large Language Models (LLM) hanno dimostrato notevoli capacità generative, ma possono giudicare la qualità delle loro stesse generazioni? Un concetto popolare, noto come auto-affinamento, postula che gli LLM siano in grado di rilevare e correggere gli errori nelle loro generazioni quando viene loro richiesto. Tuttavia, recenti evidenze empiriche indicano la direzione opposta, suggerendo che gli LLM spesso faticano a identificare con precisione gli errori quando è coinvolto il ragionamento. Per affrontare questo problema, proponiamo un obiettivo di ragionamento con affinamento chiamato ART: Ask, Refine, and Trust (Chiedi, Affina e Fidati), che pone le domande necessarie per decidere quando un LLM dovrebbe affinare il proprio output, e conferma o ritiene la fiducia nel suo affinamento classificando sia l'affinamento che la previsione iniziale. Su due compiti di ragionamento a più passi relativi a problemi matematici (GSM8K) e risposte a domande (StrategyQA), ART ottiene un miglioramento delle prestazioni di +5 punti rispetto ai baseline di auto-affinamento, utilizzando un modello molto più piccolo come decisore. Dimostriamo inoltre il vantaggio di utilizzare modelli più piccoli per prendere decisioni di affinamento come alternativa economicamente vantaggiosa al fine-tuning di un modello più grande.
English
In recent years, Large Language Models (LLMs) have demonstrated remarkable
generative abilities, but can they judge the quality of their own generations?
A popular concept, referred to as self-refinement, postulates that LLMs can
detect and correct the errors in their generations when asked to do so.
However, recent empirical evidence points in the opposite direction, suggesting
that LLMs often struggle to accurately identify errors when reasoning is
involved. To address this, we propose a reasoning with refinement objective
called ART: Ask, Refine, and Trust, which asks necessary questions to decide
when an LLM should refine its output, and either affirm or withhold trust in
its refinement by ranking the refinement and the initial prediction. On two
multistep reasoning tasks of mathematical word problems (GSM8K) and question
answering (StrategyQA), ART achieves a performance gain of +5 points over
self-refinement baselines, while using a much smaller model as the decision
maker. We also demonstrate the benefit of using smaller models to make
refinement decisions as a cost-effective alternative to fine-tuning a larger
model.