Die KUNST der LLM-Verfeinerung: Fragen, Verfeinern und Vertrauen
The ART of LLM Refinement: Ask, Refine, and Trust
November 14, 2023
papers.authors: Kumar Shridhar, Koustuv Sinha, Andrew Cohen, Tianlu Wang, Ping Yu, Ram Pasunuru, Mrinmaya Sachan, Jason Weston, Asli Celikyilmaz
cs.AI
papers.abstract
In den letzten Jahren haben Large Language Models (LLMs) bemerkenswerte generative Fähigkeiten gezeigt, aber können sie auch die Qualität ihrer eigenen Generierungen beurteilen? Ein populäres Konzept, das als Selbstverfeinerung bezeichnet wird, postuliert, dass LLMs Fehler in ihren Generierungen erkennen und korrigieren können, wenn sie dazu aufgefordert werden. Jüngste empirische Erkenntnisse deuten jedoch in die entgegengesetzte Richtung und legen nahe, dass LLMs oft Schwierigkeiten haben, Fehler genau zu identifizieren, wenn es um logisches Schlussfolgern geht. Um dies zu adressieren, schlagen wir ein Ziel der Verfeinerung durch logisches Schlussfolgern vor, das ART genannt wird: Ask, Refine, and Trust (Fragen, Verfeinern und Vertrauen). ART stellt notwendige Fragen, um zu entscheiden, wann ein LLM seine Ausgabe verfeinern sollte, und bestätigt oder entzieht dem Verfeinerungsprozess das Vertrauen, indem es die Verfeinerung und die ursprüngliche Vorhersage bewertet. Bei zwei mehrstufigen Aufgaben des logischen Schlussfolgerns – mathematische Textaufgaben (GSM8K) und Fragebeantwortung (StrategyQA) – erzielt ART einen Leistungszuwachs von +5 Punkten im Vergleich zu Selbstverfeinerungs-Baselines, wobei ein viel kleineres Modell als Entscheidungsträger verwendet wird. Wir zeigen auch den Vorteil der Verwendung kleinerer Modelle für Verfeinerungsentscheidungen als kosteneffiziente Alternative zur Feinabstimmung eines größeren Modells.
English
In recent years, Large Language Models (LLMs) have demonstrated remarkable
generative abilities, but can they judge the quality of their own generations?
A popular concept, referred to as self-refinement, postulates that LLMs can
detect and correct the errors in their generations when asked to do so.
However, recent empirical evidence points in the opposite direction, suggesting
that LLMs often struggle to accurately identify errors when reasoning is
involved. To address this, we propose a reasoning with refinement objective
called ART: Ask, Refine, and Trust, which asks necessary questions to decide
when an LLM should refine its output, and either affirm or withhold trust in
its refinement by ranking the refinement and the initial prediction. On two
multistep reasoning tasks of mathematical word problems (GSM8K) and question
answering (StrategyQA), ART achieves a performance gain of +5 points over
self-refinement baselines, while using a much smaller model as the decision
maker. We also demonstrate the benefit of using smaller models to make
refinement decisions as a cost-effective alternative to fine-tuning a larger
model.