Sentimentanalyse von litauischen Online-Bewertungen unter Verwendung großer Sprachmodelle
Sentiment Analysis of Lithuanian Online Reviews Using Large Language Models
July 29, 2024
Autoren: Brigita Vileikytė, Mantas Lukoševičius, Lukas Stankevičius
cs.AI
Zusammenfassung
Die Sentimentanalyse ist ein weithin erforschtes Gebiet innerhalb der natürlichen Sprachverarbeitung (NLP), das aufgrund des Aufkommens automatisierter Lösungen erhebliches Interesse auf sich zieht. Trotzdem bleibt die Aufgabe herausfordernd aufgrund der inhärenten Komplexität von Sprachen und der subjektiven Natur von Stimmungen. Besonders schwierig gestaltet sich dies für weniger erforschte und weniger ressourcenreiche Sprachen wie Litauisch. Unsere Überprüfung bestehender litauischer NLP-Forschung zeigt, dass traditionelle maschinelle Lernverfahren und Klassifikationsalgorithmen nur begrenzte Wirksamkeit für diese Aufgabe haben. In dieser Arbeit befassen wir uns mit der Sentimentanalyse von litauischen Online-Bewertungen mit fünf Sternen aus verschiedenen Bereichen, die wir sammeln und bereinigen. Wir wenden erstmals Transformer-Modelle auf diese Aufgabe an und untersuchen die Fähigkeiten von vortrainierten mehrsprachigen Large Language Models (LLMs), wobei wir uns speziell auf das Feintuning von BERT- und T5-Modellen konzentrieren. Angesichts der inhärenten Schwierigkeit der Aufgabe schneiden die feinabgestimmten Modelle recht gut ab, insbesondere wenn die Stimmungen selbst weniger mehrdeutig sind: 80,74% bzw. 89,61% Testgenauigkeit bei der Erkennung der beliebtesten Ein-Stern- bzw. Fünf-Stern-Bewertungen. Sie übertreffen signifikant den aktuellen kommerziellen State-of-the-Art-General-Purpose-LLM GPT-4. Wir stellen unsere feinabgestimmten LLMs offen online zur Verfügung.
English
Sentiment analysis is a widely researched area within Natural Language
Processing (NLP), attracting significant interest due to the advent of
automated solutions. Despite this, the task remains challenging because of the
inherent complexity of languages and the subjective nature of sentiments. It is
even more challenging for less-studied and less-resourced languages such as
Lithuanian. Our review of existing Lithuanian NLP research reveals that
traditional machine learning methods and classification algorithms have limited
effectiveness for the task. In this work, we address sentiment analysis of
Lithuanian five-star-based online reviews from multiple domains that we collect
and clean. We apply transformer models to this task for the first time,
exploring the capabilities of pre-trained multilingual Large Language Models
(LLMs), specifically focusing on fine-tuning BERT and T5 models. Given the
inherent difficulty of the task, the fine-tuned models perform quite well,
especially when the sentiments themselves are less ambiguous: 80.74% and 89.61%
testing recognition accuracy of the most popular one- and five-star reviews
respectively. They significantly outperform current commercial state-of-the-art
general-purpose LLM GPT-4. We openly share our fine-tuned LLMs online.Summary
AI-Generated Summary