Les modèles de langage sont des apprenants faibles.
Language models are weak learners
June 25, 2023
Auteurs: Hariharan Manikandan, Yiding Jiang, J Zico Kolter
cs.AI
Résumé
Une notion centrale dans l'apprentissage automatique pratique et théorique est celle d'apprenant faible, des classificateurs qui obtiennent des performances supérieures au hasard (sur toute distribution donnée de données), même par une faible marge. Ces apprenants faibles constituent la base pratique de méthodes canoniques d'apprentissage automatique telles que le boosting. Dans ce travail, nous démontrons que les grands modèles de langage (LLM) basés sur des prompts peuvent fonctionner efficacement comme ces apprenants faibles. Plus précisément, nous illustrons l'utilisation d'un LLM comme apprenant faible dans un algorithme de boosting appliqué à des données tabulaires. Nous montrons qu'en fournissant (correctement échantillonnées selon la distribution d'intérêt) des descriptions textuelles d'échantillons de données tabulaires, les LLM peuvent produire un résumé des échantillons qui sert de modèle pour la classification et atteint l'objectif d'agir comme un apprenant faible sur cette tâche. Nous intégrons ces modèles dans une approche de boosting, qui dans certains contextes peut exploiter les connaissances contenues dans le LLM pour surpasser le boosting traditionnel basé sur les arbres. Le modèle surpasse à la fois l'apprentissage en few-shot et parfois même des procédures de fine-tuning plus complexes, en particulier pour les tâches impliquant un petit nombre de points de données. Les résultats illustrent le potentiel des LLM basés sur des prompts à fonctionner non seulement comme des apprenants en few-shot eux-mêmes, mais aussi comme des composants de pipelines d'apprentissage automatique plus larges.
English
A central notion in practical and theoretical machine learning is that of a
weak learner, classifiers that achieve better-than-random
performance (on any given distribution over data), even by a small margin. Such
weak learners form the practical basis for canonical machine learning methods
such as boosting. In this work, we illustrate that prompt-based large language
models can operate effectively as said weak learners. Specifically, we
illustrate the use of a large language model (LLM) as a weak learner in a
boosting algorithm applied to tabular data. We show that by providing (properly
sampled according to the distribution of interest) text descriptions of tabular
data samples, LLMs can produce a summary of the samples that serves as a
template for classification and achieves the aim of acting as a weak learner on
this task. We incorporate these models into a boosting approach, which in some
settings can leverage the knowledge within the LLM to outperform traditional
tree-based boosting. The model outperforms both few-shot learning and
occasionally even more involved fine-tuning procedures, particularly for tasks
involving small numbers of data points. The results illustrate the potential
for prompt-based LLMs to function not just as few-shot learners themselves, but
as components of larger machine learning pipelines.