ChatPaper.aiChatPaper

Языковые модели являются слабыми обучаемыми системами.

Language models are weak learners

June 25, 2023
Авторы: Hariharan Manikandan, Yiding Jiang, J Zico Kolter
cs.AI

Аннотация

Центральным понятием как в практическом, так и в теоретическом машинном обучении является слабый классификатор — модель, которая демонстрирует производительность лучше случайной (на любом заданном распределении данных), даже с небольшим отрывом. Такие слабые классификаторы лежат в основе канонических методов машинного обучения, таких как бустинг. В данной работе мы показываем, что крупные языковые модели (LLM), основанные на промптах, могут эффективно выступать в роли таких слабых классификаторов. В частности, мы демонстрируем использование LLM в качестве слабого классификатора в алгоритме бустинга, применяемом к табличным данным. Мы показываем, что, предоставляя (корректно сэмплированные в соответствии с интересующим распределением) текстовые описания образцов табличных данных, LLM могут генерировать сводку, которая служит шаблоном для классификации и достигает цели слабого классификатора в этой задаче. Мы интегрируем такие модели в подход бустинга, который в некоторых случаях может использовать знания, заложенные в LLM, чтобы превзойти традиционные методы бустинга на основе деревьев. Модель превосходит как обучение с малым количеством примеров (few-shot learning), так и, в некоторых случаях, даже более сложные процедуры тонкой настройки, особенно для задач с небольшим количеством данных. Результаты демонстрируют потенциал LLM, основанных на промптах, функционировать не только как самостоятельные модели для обучения с малым количеством примеров, но и как компоненты более крупных конвейеров машинного обучения.
English
A central notion in practical and theoretical machine learning is that of a weak learner, classifiers that achieve better-than-random performance (on any given distribution over data), even by a small margin. Such weak learners form the practical basis for canonical machine learning methods such as boosting. In this work, we illustrate that prompt-based large language models can operate effectively as said weak learners. Specifically, we illustrate the use of a large language model (LLM) as a weak learner in a boosting algorithm applied to tabular data. We show that by providing (properly sampled according to the distribution of interest) text descriptions of tabular data samples, LLMs can produce a summary of the samples that serves as a template for classification and achieves the aim of acting as a weak learner on this task. We incorporate these models into a boosting approach, which in some settings can leverage the knowledge within the LLM to outperform traditional tree-based boosting. The model outperforms both few-shot learning and occasionally even more involved fine-tuning procedures, particularly for tasks involving small numbers of data points. The results illustrate the potential for prompt-based LLMs to function not just as few-shot learners themselves, but as components of larger machine learning pipelines.
PDF100December 15, 2024