Analyse de Sentiment des Avis en Ligne Lituaniens à l'aide de Modèles de Langage à Grande Échelle
Sentiment Analysis of Lithuanian Online Reviews Using Large Language Models
July 29, 2024
Auteurs: Brigita Vileikytė, Mantas Lukoševičius, Lukas Stankevičius
cs.AI
Résumé
L'analyse de sentiments est un domaine largement étudié dans le traitement du langage naturel (NLP), suscitant un intérêt considérable en raison de l'émergence de solutions automatisées. Malgré cela, la tâche reste complexe en raison de la nature intrinsèquement complexe des langues et de la subjectivité des sentiments. Elle est encore plus difficile pour les langues moins étudiées et moins dotées en ressources, comme le lituanien. Notre revue des recherches existantes en NLP pour le lituanien révèle que les méthodes traditionnelles d'apprentissage automatique et les algorithmes de classification ont une efficacité limitée pour cette tâche. Dans ce travail, nous abordons l'analyse de sentiments des avis en ligne basés sur cinq étoiles en lituanien provenant de multiples domaines que nous collectons et nettoyons. Nous appliquons pour la première fois des modèles de type transformer à cette tâche, en explorant les capacités des grands modèles de langage multilingues (LLMs) pré-entraînés, en nous concentrant spécifiquement sur le fine-tuning des modèles BERT et T5. Compte tenu de la difficulté inhérente de la tâche, les modèles fine-tunés performent plutôt bien, en particulier lorsque les sentiments eux-mêmes sont moins ambigus : 80,74 % et 89,61 % de précision de reconnaissance en test pour les avis les plus populaires à une et cinq étoiles respectivement. Ils surpassent significativement le LLM polyvalent GPT-4, actuellement considéré comme l'état de l'art commercial. Nous partageons ouvertement nos LLMs fine-tunés en ligne.
English
Sentiment analysis is a widely researched area within Natural Language
Processing (NLP), attracting significant interest due to the advent of
automated solutions. Despite this, the task remains challenging because of the
inherent complexity of languages and the subjective nature of sentiments. It is
even more challenging for less-studied and less-resourced languages such as
Lithuanian. Our review of existing Lithuanian NLP research reveals that
traditional machine learning methods and classification algorithms have limited
effectiveness for the task. In this work, we address sentiment analysis of
Lithuanian five-star-based online reviews from multiple domains that we collect
and clean. We apply transformer models to this task for the first time,
exploring the capabilities of pre-trained multilingual Large Language Models
(LLMs), specifically focusing on fine-tuning BERT and T5 models. Given the
inherent difficulty of the task, the fine-tuned models perform quite well,
especially when the sentiments themselves are less ambiguous: 80.74% and 89.61%
testing recognition accuracy of the most popular one- and five-star reviews
respectively. They significantly outperform current commercial state-of-the-art
general-purpose LLM GPT-4. We openly share our fine-tuned LLMs online.Summary
AI-Generated Summary