ChatPaper.aiChatPaper

DEBATE Político: Classificadores Eficientes de Zero-shot e Few-shot para Texto Político

Political DEBATE: Efficient Zero-shot and Few-shot Classifiers for Political Text

September 3, 2024
Autores: Michael Burnham, Kayla Kahn, Ryan Yank Wang, Rachel X. Peng
cs.AI

Resumo

Os cientistas sociais rapidamente adotaram grandes modelos de linguagem devido à capacidade de anotar documentos sem treinamento supervisionado, uma habilidade conhecida como aprendizado de zero-shot. No entanto, devido às suas demandas computacionais, custo e frequentemente natureza proprietária, esses modelos frequentemente entram em conflito com os padrões de replicação e ciência aberta. Este artigo apresenta os modelos de linguagem Político DEBATE (DeBERTa Algorithm for Textual Entailment) para classificação de documentos políticos de zero-shot e few-shot. Esses modelos não são apenas tão bons, ou melhores do que, os grandes modelos de linguagem de última geração em classificação de zero e few-shot, mas são ordens de magnitude mais eficientes e completamente de código aberto. Ao treinar os modelos em uma amostra aleatória simples de 10-25 documentos, eles podem superar classificadores supervisionados treinados em centenas ou milhares de documentos e modelos generativos de última geração com prompts complexos e elaborados. Além disso, disponibilizamos o conjunto de dados PolNLI usado para treinar esses modelos - um corpus com mais de 200.000 documentos políticos com rótulos altamente precisos em mais de 800 tarefas de classificação.
English
Social scientists quickly adopted large language models due to their ability to annotate documents without supervised training, an ability known as zero-shot learning. However, due to their compute demands, cost, and often proprietary nature, these models are often at odds with replication and open science standards. This paper introduces the Political DEBATE (DeBERTa Algorithm for Textual Entailment) language models for zero-shot and few-shot classification of political documents. These models are not only as good, or better than, state-of-the art large language models at zero and few-shot classification, but are orders of magnitude more efficient and completely open source. By training the models on a simple random sample of 10-25 documents, they can outperform supervised classifiers trained on hundreds or thousands of documents and state-of-the-art generative models with complex, engineered prompts. Additionally, we release the PolNLI dataset used to train these models -- a corpus of over 200,000 political documents with highly accurate labels across over 800 classification tasks.

Summary

AI-Generated Summary

PDF113November 16, 2024