Los modelos de lenguaje son aprendices débiles.
Language models are weak learners
June 25, 2023
Autores: Hariharan Manikandan, Yiding Jiang, J Zico Kolter
cs.AI
Resumen
Un concepto central en el aprendizaje automático tanto práctico como teórico es el de un aprendiz débil, clasificadores que logran un rendimiento superior al azar (en cualquier distribución dada de datos), incluso por un margen pequeño. Dichos aprendices débiles forman la base práctica para métodos canónicos de aprendizaje automático como el boosting. En este trabajo, demostramos que los modelos de lenguaje grandes (LLMs) basados en prompts pueden funcionar eficazmente como dichos aprendices débiles. Específicamente, ilustramos el uso de un LLM como aprendiz débil en un algoritmo de boosting aplicado a datos tabulares. Mostramos que, al proporcionar (muestreados adecuadamente según la distribución de interés) descripciones textuales de muestras de datos tabulares, los LLMs pueden producir un resumen de las muestras que sirve como plantilla para la clasificación y logra el objetivo de actuar como un aprendiz débil en esta tarea. Incorporamos estos modelos en un enfoque de boosting, que en algunos casos puede aprovechar el conocimiento dentro del LLM para superar al boosting tradicional basado en árboles. El modelo supera tanto al aprendizaje con pocos ejemplos (few-shot learning) como, en ocasiones, incluso a procedimientos de ajuste fino más complejos, particularmente para tareas que involucran un número reducido de puntos de datos. Los resultados ilustran el potencial de los LLMs basados en prompts para funcionar no solo como aprendices con pocos ejemplos, sino como componentes de pipelines más grandes de aprendizaje automático.
English
A central notion in practical and theoretical machine learning is that of a
weak learner, classifiers that achieve better-than-random
performance (on any given distribution over data), even by a small margin. Such
weak learners form the practical basis for canonical machine learning methods
such as boosting. In this work, we illustrate that prompt-based large language
models can operate effectively as said weak learners. Specifically, we
illustrate the use of a large language model (LLM) as a weak learner in a
boosting algorithm applied to tabular data. We show that by providing (properly
sampled according to the distribution of interest) text descriptions of tabular
data samples, LLMs can produce a summary of the samples that serves as a
template for classification and achieves the aim of acting as a weak learner on
this task. We incorporate these models into a boosting approach, which in some
settings can leverage the knowledge within the LLM to outperform traditional
tree-based boosting. The model outperforms both few-shot learning and
occasionally even more involved fine-tuning procedures, particularly for tasks
involving small numbers of data points. The results illustrate the potential
for prompt-based LLMs to function not just as few-shot learners themselves, but
as components of larger machine learning pipelines.