ChatPaper.aiChatPaper

Politische DEBATTE: Effiziente Zero-Shot- und Few-Shot-Klassifikatoren für politische Texte

Political DEBATE: Efficient Zero-shot and Few-shot Classifiers for Political Text

September 3, 2024
Autoren: Michael Burnham, Kayla Kahn, Ryan Yank Wang, Rachel X. Peng
cs.AI

Zusammenfassung

Sozialwissenschaftler haben schnell große Sprachmodelle übernommen, aufgrund ihrer Fähigkeit, Dokumente ohne überwachtes Training zu annotieren, eine Fähigkeit, die als Zero-Shot-Lernen bekannt ist. Aufgrund ihrer Rechenanforderungen, Kosten und oft proprietären Natur stehen diese Modelle jedoch oft im Widerspruch zu Replikations- und Open-Science-Standards. Dieser Artikel stellt die Political DEBATE (DeBERTa-Algorithmus für Textual Entailment) Sprachmodelle für Zero-Shot- und Few-Shot-Klassifizierung politischer Dokumente vor. Diese Modelle sind nicht nur genauso gut oder besser als modernste große Sprachmodelle bei der Zero- und Few-Shot-Klassifizierung, sondern sind auch um Größenordnungen effizienter und vollständig Open Source. Durch das Training der Modelle an einer einfachen Zufallsstichprobe von 10-25 Dokumenten können sie überwachte Klassifikatoren übertreffen, die auf Hunderten oder Tausenden von Dokumenten trainiert wurden, sowie modernste generative Modelle mit komplexen, konstruierten Vorgaben. Darüber hinaus veröffentlichen wir den PolNLI-Datensatz, der zur Schulung dieser Modelle verwendet wurde - ein Korpus von über 200.000 politischen Dokumenten mit hochgenauen Labels für über 800 Klassifizierungsaufgaben.
English
Social scientists quickly adopted large language models due to their ability to annotate documents without supervised training, an ability known as zero-shot learning. However, due to their compute demands, cost, and often proprietary nature, these models are often at odds with replication and open science standards. This paper introduces the Political DEBATE (DeBERTa Algorithm for Textual Entailment) language models for zero-shot and few-shot classification of political documents. These models are not only as good, or better than, state-of-the art large language models at zero and few-shot classification, but are orders of magnitude more efficient and completely open source. By training the models on a simple random sample of 10-25 documents, they can outperform supervised classifiers trained on hundreds or thousands of documents and state-of-the-art generative models with complex, engineered prompts. Additionally, we release the PolNLI dataset used to train these models -- a corpus of over 200,000 political documents with highly accurate labels across over 800 classification tasks.

Summary

AI-Generated Summary

PDF113November 16, 2024