DIBATTITO POLITICO: Classificatori Efficienti Zero-shot e Few-shot per Testi Politici
Political DEBATE: Efficient Zero-shot and Few-shot Classifiers for Political Text
September 3, 2024
Autori: Michael Burnham, Kayla Kahn, Ryan Yank Wang, Rachel X. Peng
cs.AI
Abstract
Gli scienziati sociali hanno rapidamente adottato i grandi modelli linguistici per la loro capacità di annotare documenti senza addestramento supervisionato, una capacità nota come apprendimento zero-shot. Tuttavia, a causa delle loro esigenze computazionali, dei costi e della natura spesso proprietaria, questi modelli sono spesso in contrasto con gli standard di replicazione e di scienza aperta. Questo articolo introduce i modelli linguistici Political DEBATE (DeBERTa Algorithm for Textual Entailment) per la classificazione zero-shot e few-shot dei documenti politici. Questi modelli non solo sono altrettanto buoni, se non migliori, dei grandi modelli linguistici all'avanguardia nella classificazione zero e few-shot, ma sono anche ordini di grandezza più efficienti e completamente open source. Addestrando i modelli su un semplice campione casuale di 10-25 documenti, possono superare i classificatori supervisionati addestrati su centinaia o migliaia di documenti e i modelli generativi all'avanguardia con prompt complessi e progettati. Inoltre, rilasciamo il dataset PolNLI utilizzato per addestrare questi modelli - un corpus di oltre 200.000 documenti politici con etichette altamente accurate su oltre 800 compiti di classificazione.
English
Social scientists quickly adopted large language models due to their ability
to annotate documents without supervised training, an ability known as
zero-shot learning. However, due to their compute demands, cost, and often
proprietary nature, these models are often at odds with replication and open
science standards. This paper introduces the Political DEBATE (DeBERTa
Algorithm for Textual Entailment) language models for zero-shot and few-shot
classification of political documents. These models are not only as good, or
better than, state-of-the art large language models at zero and few-shot
classification, but are orders of magnitude more efficient and completely open
source. By training the models on a simple random sample of 10-25 documents,
they can outperform supervised classifiers trained on hundreds or thousands of
documents and state-of-the-art generative models with complex, engineered
prompts. Additionally, we release the PolNLI dataset used to train these models
-- a corpus of over 200,000 political documents with highly accurate labels
across over 800 classification tasks.Summary
AI-Generated Summary