ChatPaper.aiChatPaper

Taalmodellen zijn zwakke leerlingen.

Language models are weak learners

June 25, 2023
Auteurs: Hariharan Manikandan, Yiding Jiang, J Zico Kolter
cs.AI

Samenvatting

Een centraal concept in zowel praktische als theoretische machine learning is dat van een zwakke leerder, classificatoren die een betere dan willekeurige prestatie leveren (op een gegeven verdeling van data), zelfs met een kleine marge. Dergelijke zwakke leerders vormen de praktische basis voor canonieke machine learning-methoden zoals boosting. In dit werk laten we zien dat prompt-gebaseerde grote taalmodellen effectief kunnen functioneren als dergelijke zwakke leerders. Specifiek illustreren we het gebruik van een groot taalmodel (LLM) als een zwakke leerder in een boosting-algoritme toegepast op tabelgegevens. We tonen aan dat door (correct gesampeld volgens de verdeling van belang) tekstbeschrijvingen van tabelgegevensmonsters te verstrekken, LLM's een samenvatting van de monsters kunnen produceren die dient als een sjabloon voor classificatie en het doel bereikt om als een zwakke leerder te fungeren voor deze taak. We integreren deze modellen in een boosting-aanpak, die in sommige gevallen de kennis binnen het LLM kan benutten om traditionele boom-gebaseerde boosting te overtreffen. Het model presteert beter dan few-shot learning en soms zelfs meer uitgebreide fine-tuning procedures, vooral voor taken met een klein aantal datapunten. De resultaten illustreren het potentieel van prompt-gebaseerde LLM's om niet alleen zelf als few-shot leerders te functioneren, maar ook als componenten van grotere machine learning-pipelines.
English
A central notion in practical and theoretical machine learning is that of a weak learner, classifiers that achieve better-than-random performance (on any given distribution over data), even by a small margin. Such weak learners form the practical basis for canonical machine learning methods such as boosting. In this work, we illustrate that prompt-based large language models can operate effectively as said weak learners. Specifically, we illustrate the use of a large language model (LLM) as a weak learner in a boosting algorithm applied to tabular data. We show that by providing (properly sampled according to the distribution of interest) text descriptions of tabular data samples, LLMs can produce a summary of the samples that serves as a template for classification and achieves the aim of acting as a weak learner on this task. We incorporate these models into a boosting approach, which in some settings can leverage the knowledge within the LLM to outperform traditional tree-based boosting. The model outperforms both few-shot learning and occasionally even more involved fine-tuning procedures, particularly for tasks involving small numbers of data points. The results illustrate the potential for prompt-based LLMs to function not just as few-shot learners themselves, but as components of larger machine learning pipelines.
PDF100December 15, 2024