ChatPaper.aiChatPaper

Политический ДЕБАТ: Эффективные классификаторы с нулевым и малым количеством обучающих примеров для политического текста

Political DEBATE: Efficient Zero-shot and Few-shot Classifiers for Political Text

September 3, 2024
Авторы: Michael Burnham, Kayla Kahn, Ryan Yank Wang, Rachel X. Peng
cs.AI

Аннотация

Социальные ученые быстро приняли к использованию большие языковые модели из-за их способности размечать документы без надзорного обучения, способности, известной как обучение с нулевым примером. Однако из-за требований к вычислительным мощностям, стоимости и часто собственнического характера эти модели часто не соответствуют стандартам репликации и открытой науки. В данной статье представлены языковые модели Political DEBATE (DeBERTa Algorithm for Textual Entailment) для классификации политических документов с нулевым и малым количеством примеров. Эти модели не только такие же хорошие, или даже лучше, чем передовые большие языковые модели при классификации с нулевым и малым количеством примеров, но и на порядки более эффективны и полностью открытого исходного кода. Обучив модели на простой случайной выборке из 10-25 документов, они могут превзойти надзорные классификаторы, обученные на сотнях или тысячах документов, а также передовые генеративные модели с сложными, настроенными подсказками. Кроме того, мы предоставляем набор данных PolNLI, использованный для обучения этих моделей - корпус из более чем 200 000 политических документов с высокоточными метками по более чем 800 задачам классификации.
English
Social scientists quickly adopted large language models due to their ability to annotate documents without supervised training, an ability known as zero-shot learning. However, due to their compute demands, cost, and often proprietary nature, these models are often at odds with replication and open science standards. This paper introduces the Political DEBATE (DeBERTa Algorithm for Textual Entailment) language models for zero-shot and few-shot classification of political documents. These models are not only as good, or better than, state-of-the art large language models at zero and few-shot classification, but are orders of magnitude more efficient and completely open source. By training the models on a simple random sample of 10-25 documents, they can outperform supervised classifiers trained on hundreds or thousands of documents and state-of-the-art generative models with complex, engineered prompts. Additionally, we release the PolNLI dataset used to train these models -- a corpus of over 200,000 political documents with highly accurate labels across over 800 classification tasks.

Summary

AI-Generated Summary

PDF113November 16, 2024