ChatPaper.aiChatPaper

DEBATE Político: Clasificadores Eficientes de Cero Disparos y Pocos Disparos para Texto Político

Political DEBATE: Efficient Zero-shot and Few-shot Classifiers for Political Text

September 3, 2024
Autores: Michael Burnham, Kayla Kahn, Ryan Yank Wang, Rachel X. Peng
cs.AI

Resumen

Los científicos sociales adoptaron rápidamente los grandes modelos de lenguaje debido a su capacidad para anotar documentos sin entrenamiento supervisado, una habilidad conocida como aprendizaje de cero disparos. Sin embargo, debido a sus demandas computacionales, costos y a menudo naturaleza propietaria, estos modelos a menudo entran en conflicto con los estándares de replicación y ciencia abierta. Este artículo presenta los modelos de lenguaje Político DEBATE (DeBERTa Algorithm for Textual Entailment) para la clasificación de documentos políticos de cero disparos y pocos disparos. Estos modelos no solo son tan buenos o mejores que los modelos de lenguaje grandes de última generación en la clasificación de cero y pocos disparos, sino que son órdenes de magnitud más eficientes y completamente de código abierto. Al entrenar los modelos con una muestra aleatoria simple de 10-25 documentos, pueden superar a los clasificadores supervisados entrenados con cientos o miles de documentos y a los modelos generativos de última generación con indicaciones complejas y diseñadas. Además, liberamos el conjunto de datos PolNLI utilizado para entrenar estos modelos, un corpus de más de 200,000 documentos políticos con etiquetas altamente precisas en más de 800 tareas de clasificación.
English
Social scientists quickly adopted large language models due to their ability to annotate documents without supervised training, an ability known as zero-shot learning. However, due to their compute demands, cost, and often proprietary nature, these models are often at odds with replication and open science standards. This paper introduces the Political DEBATE (DeBERTa Algorithm for Textual Entailment) language models for zero-shot and few-shot classification of political documents. These models are not only as good, or better than, state-of-the art large language models at zero and few-shot classification, but are orders of magnitude more efficient and completely open source. By training the models on a simple random sample of 10-25 documents, they can outperform supervised classifiers trained on hundreds or thousands of documents and state-of-the-art generative models with complex, engineered prompts. Additionally, we release the PolNLI dataset used to train these models -- a corpus of over 200,000 political documents with highly accurate labels across over 800 classification tasks.

Summary

AI-Generated Summary

PDF113November 16, 2024