Sprachmodelle sind schwache Lerner.
Language models are weak learners
June 25, 2023
Autoren: Hariharan Manikandan, Yiding Jiang, J Zico Kolter
cs.AI
Zusammenfassung
Ein zentraler Begriff in der praktischen und theoretischen maschinellen Lernens ist der des schwachen Lerners, also Klassifikatoren, die eine bessere als zufällige Leistung (für jede gegebene Datenverteilung) erzielen, selbst wenn diese Verbesserung nur geringfügig ist. Solche schwachen Lerner bilden die praktische Grundlage für kanonische Methoden des maschinellen Lernens wie Boosting. In dieser Arbeit zeigen wir, dass prompt-basierte große Sprachmodelle (LLMs) effektiv als solche schwachen Lerner fungieren können. Konkret demonstrieren wir die Verwendung eines großen Sprachmodells als schwachen Lerner in einem Boosting-Algorithmus, der auf tabellarische Daten angewendet wird. Wir zeigen, dass LLMs, indem sie (gemäß der interessierenden Verteilung korrekt abgetastete) Textbeschreibungen von tabellarischen Datenproben erhalten, eine Zusammenfassung der Proben erstellen können, die als Vorlage für die Klassifikation dient und das Ziel erfüllt, als schwacher Lerner für diese Aufgabe zu agieren. Wir integrieren diese Modelle in einen Boosting-Ansatz, der in einigen Fällen das Wissen innerhalb des LLMs nutzen kann, um traditionelle baumbasierte Boosting-Verfahren zu übertreffen. Das Modell übertrifft sowohl Few-Shot-Lernen als auch gelegentlich sogar aufwändigere Fine-Tuning-Verfahren, insbesondere bei Aufgaben mit einer geringen Anzahl von Datenpunkten. Die Ergebnisse verdeutlichen das Potenzial von prompt-basierten LLMs, nicht nur als Few-Shot-Lerner selbst zu fungieren, sondern auch als Komponenten größerer maschineller Lernpipelines.
English
A central notion in practical and theoretical machine learning is that of a
weak learner, classifiers that achieve better-than-random
performance (on any given distribution over data), even by a small margin. Such
weak learners form the practical basis for canonical machine learning methods
such as boosting. In this work, we illustrate that prompt-based large language
models can operate effectively as said weak learners. Specifically, we
illustrate the use of a large language model (LLM) as a weak learner in a
boosting algorithm applied to tabular data. We show that by providing (properly
sampled according to the distribution of interest) text descriptions of tabular
data samples, LLMs can produce a summary of the samples that serves as a
template for classification and achieves the aim of acting as a weak learner on
this task. We incorporate these models into a boosting approach, which in some
settings can leverage the knowledge within the LLM to outperform traditional
tree-based boosting. The model outperforms both few-shot learning and
occasionally even more involved fine-tuning procedures, particularly for tasks
involving small numbers of data points. The results illustrate the potential
for prompt-based LLMs to function not just as few-shot learners themselves, but
as components of larger machine learning pipelines.