DÉBAT POLITIQUE : Classificateurs efficaces à zéro et à quelques tirs pour les textes politiques
Political DEBATE: Efficient Zero-shot and Few-shot Classifiers for Political Text
September 3, 2024
Auteurs: Michael Burnham, Kayla Kahn, Ryan Yank Wang, Rachel X. Peng
cs.AI
Résumé
Les scientifiques sociaux ont rapidement adopté de grands modèles de langage en raison de leur capacité à annoter des documents sans entraînement supervisé, une capacité connue sous le nom d'apprentissage sans étiquette. Cependant, en raison de leurs exigences en calcul, de leur coût et de leur nature souvent propriétaire, ces modèles sont souvent en contradiction avec les normes de réplication et de science ouverte. Cet article présente les modèles de langage Political DEBATE (DeBERTa Algorithm for Textual Entailment) pour la classification sans étiquette et à faible nombre d'exemples de documents politiques. Ces modèles ne sont pas seulement aussi bons, voire meilleurs, que les grands modèles de langage de pointe en matière de classification sans étiquette et à faible nombre d'exemples, mais ils sont également beaucoup plus efficaces et entièrement open source. En formant les modèles sur un simple échantillon aléatoire de 10 à 25 documents, ils peuvent surpasser les classificateurs supervisés formés sur des centaines ou des milliers de documents et les modèles génératifs de pointe avec des invitations complexes et élaborées. De plus, nous publions l'ensemble de données PolNLI utilisé pour entraîner ces modèles - un corpus de plus de 200 000 documents politiques avec des étiquettes très précises sur plus de 800 tâches de classification.
English
Social scientists quickly adopted large language models due to their ability
to annotate documents without supervised training, an ability known as
zero-shot learning. However, due to their compute demands, cost, and often
proprietary nature, these models are often at odds with replication and open
science standards. This paper introduces the Political DEBATE (DeBERTa
Algorithm for Textual Entailment) language models for zero-shot and few-shot
classification of political documents. These models are not only as good, or
better than, state-of-the art large language models at zero and few-shot
classification, but are orders of magnitude more efficient and completely open
source. By training the models on a simple random sample of 10-25 documents,
they can outperform supervised classifiers trained on hundreds or thousands of
documents and state-of-the-art generative models with complex, engineered
prompts. Additionally, we release the PolNLI dataset used to train these models
-- a corpus of over 200,000 political documents with highly accurate labels
across over 800 classification tasks.Summary
AI-Generated Summary