DÉBAT POLITIQUE : Classificateurs efficaces à zéro et à quelques tirs pour les textes politiques

Résumé

Les scientifiques sociaux ont rapidement adopté de grands modèles de langage en raison de leur capacité à annoter des documents sans entraînement supervisé, une capacité connue sous le nom d'apprentissage sans étiquette. Cependant, en raison de leurs exigences en calcul, de leur coût et de leur nature souvent propriétaire, ces modèles sont souvent en contradiction avec les normes de réplication et de science ouverte. Cet article présente les modèles de langage Political DEBATE (DeBERTa Algorithm for Textual Entailment) pour la classification sans étiquette et à faible nombre d'exemples de documents politiques. Ces modèles ne sont pas seulement aussi bons, voire meilleurs, que les grands modèles de langage de pointe en matière de classification sans étiquette et à faible nombre d'exemples, mais ils sont également beaucoup plus efficaces et entièrement open source. En formant les modèles sur un simple échantillon aléatoire de 10 à 25 documents, ils peuvent surpasser les classificateurs supervisés formés sur des centaines ou des milliers de documents et les modèles génératifs de pointe avec des invitations complexes et élaborées. De plus, nous publions l'ensemble de données PolNLI utilisé pour entraîner ces modèles - un corpus de plus de 200 000 documents politiques avec des étiquettes très précises sur plus de 800 tâches de classification.

English

Social scientists quickly adopted large language models due to their ability to annotate documents without supervised training, an ability known as zero-shot learning. However, due to their compute demands, cost, and often proprietary nature, these models are often at odds with replication and open science standards. This paper introduces the Political DEBATE (DeBERTa Algorithm for Textual Entailment) language models for zero-shot and few-shot classification of political documents. These models are not only as good, or better than, state-of-the art large language models at zero and few-shot classification, but are orders of magnitude more efficient and completely open source. By training the models on a simple random sample of 10-25 documents, they can outperform supervised classifiers trained on hundreds or thousands of documents and state-of-the-art generative models with complex, engineered prompts. Additionally, we release the PolNLI dataset used to train these models -- a corpus of over 200,000 political documents with highly accurate labels across over 800 classification tasks.

DÉBAT POLITIQUE : Classificateurs efficaces à zéro et à quelques tirs pour les textes politiques

Political DEBATE: Efficient Zero-shot and Few-shot Classifiers for Political Text

Résumé

Support