Los modelos de lenguaje son aprendices débiles.

Resumen

Un concepto central en el aprendizaje automático tanto práctico como teórico es el de un aprendiz débil, clasificadores que logran un rendimiento superior al azar (en cualquier distribución dada de datos), incluso por un margen pequeño. Dichos aprendices débiles forman la base práctica para métodos canónicos de aprendizaje automático como el boosting. En este trabajo, demostramos que los modelos de lenguaje grandes (LLMs) basados en prompts pueden funcionar eficazmente como dichos aprendices débiles. Específicamente, ilustramos el uso de un LLM como aprendiz débil en un algoritmo de boosting aplicado a datos tabulares. Mostramos que, al proporcionar (muestreados adecuadamente según la distribución de interés) descripciones textuales de muestras de datos tabulares, los LLMs pueden producir un resumen de las muestras que sirve como plantilla para la clasificación y logra el objetivo de actuar como un aprendiz débil en esta tarea. Incorporamos estos modelos en un enfoque de boosting, que en algunos casos puede aprovechar el conocimiento dentro del LLM para superar al boosting tradicional basado en árboles. El modelo supera tanto al aprendizaje con pocos ejemplos (few-shot learning) como, en ocasiones, incluso a procedimientos de ajuste fino más complejos, particularmente para tareas que involucran un número reducido de puntos de datos. Los resultados ilustran el potencial de los LLMs basados en prompts para funcionar no solo como aprendices con pocos ejemplos, sino como componentes de pipelines más grandes de aprendizaje automático.

English

A central notion in practical and theoretical machine learning is that of a weak learner, classifiers that achieve better-than-random performance (on any given distribution over data), even by a small margin. Such weak learners form the practical basis for canonical machine learning methods such as boosting. In this work, we illustrate that prompt-based large language models can operate effectively as said weak learners. Specifically, we illustrate the use of a large language model (LLM) as a weak learner in a boosting algorithm applied to tabular data. We show that by providing (properly sampled according to the distribution of interest) text descriptions of tabular data samples, LLMs can produce a summary of the samples that serves as a template for classification and achieves the aim of acting as a weak learner on this task. We incorporate these models into a boosting approach, which in some settings can leverage the knowledge within the LLM to outperform traditional tree-based boosting. The model outperforms both few-shot learning and occasionally even more involved fine-tuning procedures, particularly for tasks involving small numbers of data points. The results illustrate the potential for prompt-based LLMs to function not just as few-shot learners themselves, but as components of larger machine learning pipelines.

Los modelos de lenguaje son aprendices débiles.

Language models are weak learners

Resumen

Support