Taalmodellen zijn zwakke leerlingen.
Language models are weak learners
June 25, 2023
Auteurs: Hariharan Manikandan, Yiding Jiang, J Zico Kolter
cs.AI
Samenvatting
Een centraal concept in zowel praktische als theoretische machine learning is dat van een zwakke leerder, classificatoren die een betere dan willekeurige prestatie leveren (op een gegeven verdeling van data), zelfs met een kleine marge. Dergelijke zwakke leerders vormen de praktische basis voor canonieke machine learning-methoden zoals boosting. In dit werk laten we zien dat prompt-gebaseerde grote taalmodellen effectief kunnen functioneren als dergelijke zwakke leerders. Specifiek illustreren we het gebruik van een groot taalmodel (LLM) als een zwakke leerder in een boosting-algoritme toegepast op tabelgegevens. We tonen aan dat door (correct gesampeld volgens de verdeling van belang) tekstbeschrijvingen van tabelgegevensmonsters te verstrekken, LLM's een samenvatting van de monsters kunnen produceren die dient als een sjabloon voor classificatie en het doel bereikt om als een zwakke leerder te fungeren voor deze taak. We integreren deze modellen in een boosting-aanpak, die in sommige gevallen de kennis binnen het LLM kan benutten om traditionele boom-gebaseerde boosting te overtreffen. Het model presteert beter dan few-shot learning en soms zelfs meer uitgebreide fine-tuning procedures, vooral voor taken met een klein aantal datapunten. De resultaten illustreren het potentieel van prompt-gebaseerde LLM's om niet alleen zelf als few-shot leerders te functioneren, maar ook als componenten van grotere machine learning-pipelines.
English
A central notion in practical and theoretical machine learning is that of a
weak learner, classifiers that achieve better-than-random
performance (on any given distribution over data), even by a small margin. Such
weak learners form the practical basis for canonical machine learning methods
such as boosting. In this work, we illustrate that prompt-based large language
models can operate effectively as said weak learners. Specifically, we
illustrate the use of a large language model (LLM) as a weak learner in a
boosting algorithm applied to tabular data. We show that by providing (properly
sampled according to the distribution of interest) text descriptions of tabular
data samples, LLMs can produce a summary of the samples that serves as a
template for classification and achieves the aim of acting as a weak learner on
this task. We incorporate these models into a boosting approach, which in some
settings can leverage the knowledge within the LLM to outperform traditional
tree-based boosting. The model outperforms both few-shot learning and
occasionally even more involved fine-tuning procedures, particularly for tasks
involving small numbers of data points. The results illustrate the potential
for prompt-based LLMs to function not just as few-shot learners themselves, but
as components of larger machine learning pipelines.