I modelli linguistici sono apprenditori deboli.
Language models are weak learners
June 25, 2023
Autori: Hariharan Manikandan, Yiding Jiang, J Zico Kolter
cs.AI
Abstract
Un concetto centrale nell'apprendimento automatico sia pratico che teorico è quello di un classificatore debole (weak learner), ovvero classificatori che raggiungono prestazioni migliori del caso (su qualsiasi distribuzione di dati), anche di un piccolo margine. Tali classificatori deboli costituiscono la base pratica per metodi canonici di apprendimento automatico come il boosting. In questo lavoro, dimostriamo che i modelli linguistici di grandi dimensioni (LLM) basati su prompt possono operare efficacemente come tali classificatori deboli. Nello specifico, illustriamo l'uso di un LLM come classificatore debole in un algoritmo di boosting applicato a dati tabellari. Mostriamo che, fornendo descrizioni testuali (campionate correttamente secondo la distribuzione di interesse) dei campioni di dati tabellari, gli LLM possono produrre un riassunto dei campioni che funge da modello per la classificazione e raggiunge l'obiettivo di agire come classificatore debole in questo compito. Integriamo questi modelli in un approccio di boosting, che in alcuni contesti può sfruttare la conoscenza all'interno dell'LLM per superare il boosting tradizionale basato su alberi. Il modello supera sia l'apprendimento con pochi esempi (few-shot learning) e, occasionalmente, anche procedure di fine-tuning più complesse, in particolare per compiti che coinvolgono un numero ridotto di punti dati. I risultati dimostrano il potenziale degli LLM basati su prompt di funzionare non solo come apprenditori con pochi esempi, ma come componenti di pipeline di apprendimento automatico più ampie.
English
A central notion in practical and theoretical machine learning is that of a
weak learner, classifiers that achieve better-than-random
performance (on any given distribution over data), even by a small margin. Such
weak learners form the practical basis for canonical machine learning methods
such as boosting. In this work, we illustrate that prompt-based large language
models can operate effectively as said weak learners. Specifically, we
illustrate the use of a large language model (LLM) as a weak learner in a
boosting algorithm applied to tabular data. We show that by providing (properly
sampled according to the distribution of interest) text descriptions of tabular
data samples, LLMs can produce a summary of the samples that serves as a
template for classification and achieves the aim of acting as a weak learner on
this task. We incorporate these models into a boosting approach, which in some
settings can leverage the knowledge within the LLM to outperform traditional
tree-based boosting. The model outperforms both few-shot learning and
occasionally even more involved fine-tuning procedures, particularly for tasks
involving small numbers of data points. The results illustrate the potential
for prompt-based LLMs to function not just as few-shot learners themselves, but
as components of larger machine learning pipelines.