Große Sprachmodellprogramme
Large Language Model Programs
May 9, 2023
Autoren: Imanol Schlag, Sainbayar Sukhbaatar, Asli Celikyilmaz, Wen-tau Yih, Jason Weston, Jürgen Schmidhuber, Xian Li
cs.AI
Zusammenfassung
In den letzten Jahren haben große vortrainierte Sprachmodelle (LLMs) die Fähigkeit gezeigt, Anweisungen zu befolgen und neue Aufgaben anhand weniger Beispiele auszuführen. Die Möglichkeit, ein LLM durch solche In-Context-Beispiele zu parametrisieren, erweitert dessen Fähigkeiten bei deutlich geringeren Kosten als das Feinabstimmen. Wir erweitern diese Argumentationslinie und präsentieren eine Methode, die die Fähigkeiten eines LLMs weiter ausbaut, indem es in einen Algorithmus oder ein Programm eingebettet wird. Um die Vorteile dieses Ansatzes zu demonstrieren, präsentieren wir ein anschauliches Beispiel für evidenzgestütztes Frage-Antworten. Wir erzielen eine Verbesserung von 6,4 % gegenüber der Chain-of-Thought-Baseline durch einen stärker algorithmischen Ansatz ohne jegliches Feinabstimmen. Darüber hinaus beleuchten wir aktuelle Arbeiten aus dieser Perspektive und diskutieren die Vor- und Nachteile im Vergleich zu den Standardansätzen.
English
In recent years, large pre-trained language models (LLMs) have demonstrated
the ability to follow instructions and perform novel tasks from a few examples.
The possibility to parameterise an LLM through such in-context examples widens
their capability at a much lower cost than finetuning. We extend this line of
reasoning and present a method which further expands the capabilities of an LLM
by embedding it within an algorithm or program. To demonstrate the benefits of
this approach, we present an illustrative example of evidence-supported
question-answering. We obtain a 6.4\% improvement over the chain of thought
baseline through a more algorithmic approach without any finetuning.
Furthermore, we highlight recent work from this perspective and discuss the
advantages and disadvantages in comparison to the standard approaches.