言語モデルは弱い学習器である
Language models are weak learners
June 25, 2023
著者: Hariharan Manikandan, Yiding Jiang, J Zico Kolter
cs.AI
要旨
実践的および理論的な機械学習における中心的な概念の一つが、弱学習器(weak learner)です。これは、任意のデータ分布において、わずかな差であってもランダムな性能を上回る分類器を指します。このような弱学習器は、ブースティング(boosting)のような標準的な機械学習手法の実践的な基盤を形成しています。本研究では、プロンプトベースの大規模言語モデル(LLM)が、この弱学習器として効果的に機能し得ることを示します。具体的には、表形式データに適用されたブースティングアルゴリズムにおいて、LLMを弱学習器として使用する方法を説明します。興味のある分布に従って適切にサンプリングされた表形式データのテキスト記述を提供することで、LLMは分類のテンプレートとして機能するサンプルの要約を生成し、このタスクにおいて弱学習器としての目的を達成できることを示します。これらのモデルをブースティング手法に組み込むことで、一部の設定では、LLM内の知識を活用して従来のツリーベースのブースティングを上回る性能を発揮できることを示します。このモデルは、特にデータポイントが少ないタスクにおいて、少数ショット学習(few-shot learning)や、場合によってはより複雑なファインチューニング手法さえも上回る性能を示します。これらの結果は、プロンプトベースのLLMが単独で少数ショット学習器として機能するだけでなく、より大規模な機械学習パイプラインの構成要素としても機能し得る可能性を示しています。
English
A central notion in practical and theoretical machine learning is that of a
weak learner, classifiers that achieve better-than-random
performance (on any given distribution over data), even by a small margin. Such
weak learners form the practical basis for canonical machine learning methods
such as boosting. In this work, we illustrate that prompt-based large language
models can operate effectively as said weak learners. Specifically, we
illustrate the use of a large language model (LLM) as a weak learner in a
boosting algorithm applied to tabular data. We show that by providing (properly
sampled according to the distribution of interest) text descriptions of tabular
data samples, LLMs can produce a summary of the samples that serves as a
template for classification and achieves the aim of acting as a weak learner on
this task. We incorporate these models into a boosting approach, which in some
settings can leverage the knowledge within the LLM to outperform traditional
tree-based boosting. The model outperforms both few-shot learning and
occasionally even more involved fine-tuning procedures, particularly for tasks
involving small numbers of data points. The results illustrate the potential
for prompt-based LLMs to function not just as few-shot learners themselves, but
as components of larger machine learning pipelines.