政治的なディベート:政治的テキストの効率的なゼロショットおよびフューショット分類器
Political DEBATE: Efficient Zero-shot and Few-shot Classifiers for Political Text
September 3, 2024
著者: Michael Burnham, Kayla Kahn, Ryan Yank Wang, Rachel X. Peng
cs.AI
要旨
社会科学者は、大規模言語モデルが監督されたトレーニングなしで文書を注釈付けする能力、すなわちゼロショット学習として知られる能力を持つため、これらを迅速に採用しました。しかしながら、計算要件、コスト、そしてしばしば独自性のため、これらのモデルは複製とオープンサイエンスの基準としばしば矛盾しています。本論文では、政治文書のゼロショットおよびフューショット分類のためのPolitical DEBATE(DeBERTa Algorithm for Textual Entailment)言語モデルを紹介します。これらのモデルは、ゼロおよびフューショット分類において、最先端の大規模言語モデルと同等以上に優れているだけでなく、桁違いに効率的で完全にオープンソースです。これらのモデルを10〜25の文書の単純な無作為サンプルでトレーニングすることで、数百または数千の文書でトレーニングされた監督分類器や複雑なエンジニアリングプロンプトを持つ最先端の生成モデルを上回ることができます。さらに、これらのモデルをトレーニングするために使用されたPolNLIデータセットを公開します。これは、800以上の分類タスク全体で高精度のラベルを持つ20万以上の政治文書のコーパスです。
English
Social scientists quickly adopted large language models due to their ability
to annotate documents without supervised training, an ability known as
zero-shot learning. However, due to their compute demands, cost, and often
proprietary nature, these models are often at odds with replication and open
science standards. This paper introduces the Political DEBATE (DeBERTa
Algorithm for Textual Entailment) language models for zero-shot and few-shot
classification of political documents. These models are not only as good, or
better than, state-of-the art large language models at zero and few-shot
classification, but are orders of magnitude more efficient and completely open
source. By training the models on a simple random sample of 10-25 documents,
they can outperform supervised classifiers trained on hundreds or thousands of
documents and state-of-the-art generative models with complex, engineered
prompts. Additionally, we release the PolNLI dataset used to train these models
-- a corpus of over 200,000 political documents with highly accurate labels
across over 800 classification tasks.Summary
AI-Generated Summary