Modelos de linguagem são aprendizes fracos.
Language models are weak learners
June 25, 2023
Autores: Hariharan Manikandan, Yiding Jiang, J Zico Kolter
cs.AI
Resumo
Um conceito central no aprendizado de máquina prático e teórico é o de um
aprendiz fraco, classificadores que alcançam desempenho melhor que o aleatório
(em qualquer distribuição de dados), mesmo que por uma pequena margem. Tais
aprendizes fracos formam a base prática para métodos canônicos de aprendizado de
máquina, como o boosting. Neste trabalho, ilustramos que modelos de linguagem
grandes (LLMs) baseados em prompts podem operar efetivamente como ditos
aprendizes fracos. Especificamente, ilustramos o uso de um LLM como um aprendiz
fraco em um algoritmo de boosting aplicado a dados tabulares. Mostramos que, ao
fornecer (devidamente amostrados de acordo com a distribuição de interesse)
descrições textuais de amostras de dados tabulares, LLMs podem produzir um
resumo das amostras que serve como um modelo para classificação e alcança o
objetivo de atuar como um aprendiz fraco nessa tarefa. Incorporamos esses
modelos em uma abordagem de boosting, que, em alguns cenários, pode aproveitar
o conhecimento dentro do LLM para superar o boosting tradicional baseado em
árvores. O modelo supera tanto o aprendizado few-shot quanto, ocasionalmente,
procedimentos de ajuste fino mais elaborados, particularmente para tarefas que
envolvem um pequeno número de pontos de dados. Os resultados ilustram o
potencial dos LLMs baseados em prompts para funcionar não apenas como
aprendizes few-shot, mas como componentes de pipelines maiores de aprendizado
de máquina.
English
A central notion in practical and theoretical machine learning is that of a
weak learner, classifiers that achieve better-than-random
performance (on any given distribution over data), even by a small margin. Such
weak learners form the practical basis for canonical machine learning methods
such as boosting. In this work, we illustrate that prompt-based large language
models can operate effectively as said weak learners. Specifically, we
illustrate the use of a large language model (LLM) as a weak learner in a
boosting algorithm applied to tabular data. We show that by providing (properly
sampled according to the distribution of interest) text descriptions of tabular
data samples, LLMs can produce a summary of the samples that serves as a
template for classification and achieves the aim of acting as a weak learner on
this task. We incorporate these models into a boosting approach, which in some
settings can leverage the knowledge within the LLM to outperform traditional
tree-based boosting. The model outperforms both few-shot learning and
occasionally even more involved fine-tuning procedures, particularly for tasks
involving small numbers of data points. The results illustrate the potential
for prompt-based LLMs to function not just as few-shot learners themselves, but
as components of larger machine learning pipelines.