POLITIEK DEBAT: Efficiënte Zero-shot en Few-shot Classificatoren voor Politieke Teksten
Political DEBATE: Efficient Zero-shot and Few-shot Classifiers for Political Text
September 3, 2024
Auteurs: Michael Burnham, Kayla Kahn, Ryan Yank Wang, Rachel X. Peng
cs.AI
Samenvatting
Sociale wetenschappers hebben snel grote taalmodellen omarmd vanwege hun vermogen om documenten te annoteren zonder begeleide training, een vaardigheid die bekend staat als zero-shot learning. Echter, vanwege hun rekenkundige eisen, kosten en vaak propriëtaire aard, staan deze modellen vaak haaks op replicatie en open wetenschapsnormen. Dit artikel introduceert de Political DEBATE (DeBERTa Algorithm for Textual Entailment) taalmodellen voor zero-shot en few-shot classificatie van politieke documenten. Deze modellen zijn niet alleen even goed, of beter dan, state-of-the-art grote taalmodellen bij zero-shot en few-shot classificatie, maar zijn ook vele malen efficiënter en volledig open source. Door de modellen te trainen op een eenvoudige willekeurige steekproef van 10-25 documenten, kunnen ze begeleide classificatoren die getraind zijn op honderden of duizenden documenten en state-of-the-art generatieve modellen met complexe, geconstrueerde prompts overtreffen. Daarnaast publiceren we de PolNLI dataset die gebruikt is om deze modellen te trainen – een corpus van meer dan 200.000 politieke documenten met zeer nauwkeurige labels voor meer dan 800 classificatietaken.
English
Social scientists quickly adopted large language models due to their ability
to annotate documents without supervised training, an ability known as
zero-shot learning. However, due to their compute demands, cost, and often
proprietary nature, these models are often at odds with replication and open
science standards. This paper introduces the Political DEBATE (DeBERTa
Algorithm for Textual Entailment) language models for zero-shot and few-shot
classification of political documents. These models are not only as good, or
better than, state-of-the art large language models at zero and few-shot
classification, but are orders of magnitude more efficient and completely open
source. By training the models on a simple random sample of 10-25 documents,
they can outperform supervised classifiers trained on hundreds or thousands of
documents and state-of-the-art generative models with complex, engineered
prompts. Additionally, we release the PolNLI dataset used to train these models
-- a corpus of over 200,000 political documents with highly accurate labels
across over 800 classification tasks.Summary
AI-Generated Summary