Modelos de linguagem são aprendizes fracos.

Resumo

Um conceito central no aprendizado de máquina prático e teórico é o de um aprendiz fraco, classificadores que alcançam desempenho melhor que o aleatório (em qualquer distribuição de dados), mesmo que por uma pequena margem. Tais aprendizes fracos formam a base prática para métodos canônicos de aprendizado de máquina, como o boosting. Neste trabalho, ilustramos que modelos de linguagem grandes (LLMs) baseados em prompts podem operar efetivamente como ditos aprendizes fracos. Especificamente, ilustramos o uso de um LLM como um aprendiz fraco em um algoritmo de boosting aplicado a dados tabulares. Mostramos que, ao fornecer (devidamente amostrados de acordo com a distribuição de interesse) descrições textuais de amostras de dados tabulares, LLMs podem produzir um resumo das amostras que serve como um modelo para classificação e alcança o objetivo de atuar como um aprendiz fraco nessa tarefa. Incorporamos esses modelos em uma abordagem de boosting, que, em alguns cenários, pode aproveitar o conhecimento dentro do LLM para superar o boosting tradicional baseado em árvores. O modelo supera tanto o aprendizado few-shot quanto, ocasionalmente, procedimentos de ajuste fino mais elaborados, particularmente para tarefas que envolvem um pequeno número de pontos de dados. Os resultados ilustram o potencial dos LLMs baseados em prompts para funcionar não apenas como aprendizes few-shot, mas como componentes de pipelines maiores de aprendizado de máquina.

English

A central notion in practical and theoretical machine learning is that of a weak learner, classifiers that achieve better-than-random performance (on any given distribution over data), even by a small margin. Such weak learners form the practical basis for canonical machine learning methods such as boosting. In this work, we illustrate that prompt-based large language models can operate effectively as said weak learners. Specifically, we illustrate the use of a large language model (LLM) as a weak learner in a boosting algorithm applied to tabular data. We show that by providing (properly sampled according to the distribution of interest) text descriptions of tabular data samples, LLMs can produce a summary of the samples that serves as a template for classification and achieves the aim of acting as a weak learner on this task. We incorporate these models into a boosting approach, which in some settings can leverage the knowledge within the LLM to outperform traditional tree-based boosting. The model outperforms both few-shot learning and occasionally even more involved fine-tuning procedures, particularly for tasks involving small numbers of data points. The results illustrate the potential for prompt-based LLMs to function not just as few-shot learners themselves, but as components of larger machine learning pipelines.

Modelos de linguagem são aprendizes fracos.

Language models are weak learners

Resumo

Support