Estrutura Professor-Aluno LLM para Classificação de Texto Sem Dados Anotados Manualmente: Um Estudo de Caso na Classificação de Tópicos de Notícias IPTC
LLM Teacher-Student Framework for Text Classification With No Manually Annotated Data: A Case Study in IPTC News Topic Classification
November 29, 2024
Autores: Taja Kuzman, Nikola Ljubešić
cs.AI
Resumo
Com o número cada vez maior de notícias disponíveis online, classificá-las por tópico, independentemente do idioma em que estão escritas, tornou-se crucial para melhorar o acesso dos leitores a conteúdos relevantes. Para enfrentar esse desafio, propomos um framework professor-aluno baseado em grandes modelos de linguagem (LLMs) para desenvolver modelos multilíngues de classificação de notícias de tamanho razoável sem a necessidade de anotação manual de dados. O framework utiliza um modelo Generative Pretrained Transformer (GPT) como o modelo professor para desenvolver um conjunto de dados de treinamento de tópicos de mídia IPTC por meio da anotação automática de artigos de notícias em esloveno, croata, grego e catalão. O modelo professor apresenta um alto desempenho de zero-shot em todos os quatro idiomas. Sua concordância com os anotadores humanos é comparável àquela entre os próprios anotadores humanos. Para mitigar as limitações computacionais associadas à necessidade de processar milhões de textos diariamente, modelos alunos menores semelhantes ao BERT são ajustados no conjunto de dados anotados pelo GPT. Esses modelos alunos alcançam alto desempenho comparável ao modelo professor. Além disso, exploramos o impacto do tamanho dos dados de treinamento no desempenho dos modelos alunos e investigamos suas capacidades monolíngues, multilíngues e de zero-shot cross-lingual. Os resultados indicam que os modelos alunos podem alcançar alto desempenho com um número relativamente pequeno de instâncias de treinamento e demonstram fortes habilidades de zero-shot cross-lingual. Por fim, publicamos o classificador de tópicos de notícias com melhor desempenho, possibilitando a classificação multilíngue com as categorias de nível superior do esquema de tópicos de mídia IPTC.
English
With the ever-increasing number of news stories available online, classifying
them by topic, regardless of the language they are written in, has become
crucial for enhancing readers' access to relevant content. To address this
challenge, we propose a teacher-student framework based on large language
models (LLMs) for developing multilingual news classification models of
reasonable size with no need for manual data annotation. The framework employs
a Generative Pretrained Transformer (GPT) model as the teacher model to develop
an IPTC Media Topic training dataset through automatic annotation of news
articles in Slovenian, Croatian, Greek, and Catalan. The teacher model exhibits
a high zero-shot performance on all four languages. Its agreement with human
annotators is comparable to that between the human annotators themselves. To
mitigate the computational limitations associated with the requirement of
processing millions of texts daily, smaller BERT-like student models are
fine-tuned on the GPT-annotated dataset. These student models achieve high
performance comparable to the teacher model. Furthermore, we explore the impact
of the training data size on the performance of the student models and
investigate their monolingual, multilingual and zero-shot cross-lingual
capabilities. The findings indicate that student models can achieve high
performance with a relatively small number of training instances, and
demonstrate strong zero-shot cross-lingual abilities. Finally, we publish the
best-performing news topic classifier, enabling multilingual classification
with the top-level categories of the IPTC Media Topic schema.Summary
AI-Generated Summary