Analisi del Sentimento delle Recensioni Online in Lituano Utilizzando Modelli Linguistici di Grande Dimensione
Sentiment Analysis of Lithuanian Online Reviews Using Large Language Models
July 29, 2024
Autori: Brigita Vileikytė, Mantas Lukoševičius, Lukas Stankevičius
cs.AI
Abstract
L'analisi del sentiment è un'area ampiamente studiata nell'ambito dell'Elaborazione del Linguaggio Naturale (NLP), che attira un notevole interesse grazie all'avvento di soluzioni automatizzate. Nonostante ciò, il compito rimane impegnativo a causa della complessità intrinseca delle lingue e della natura soggettiva dei sentimenti. È ancora più difficile per lingue meno studiate e con meno risorse, come il lituano. La nostra revisione della ricerca esistente sul NLP lituano rivela che i tradizionali metodi di apprendimento automatico e gli algoritmi di classificazione hanno un'efficacia limitata per questo compito. In questo lavoro, affrontiamo l'analisi del sentiment delle recensioni online lituane basate su cinque stelle, raccolte e ripulite da più domini. Applichiamo per la prima volta modelli transformer a questo compito, esplorando le capacità dei modelli linguistici multilingue pre-addestrati (LLM), concentrandoci in particolare sul fine-tuning dei modelli BERT e T5. Data la difficoltà intrinseca del compito, i modelli fine-tuned performano piuttosto bene, specialmente quando i sentimenti stessi sono meno ambigui: 80,74% e 89,61% di accuratezza di riconoscimento nei test rispettivamente per le recensioni a una e cinque stelle più popolari. Essi superano significativamente l'attuale LLM generico all'avanguardia GPT-4. Condividiamo apertamente i nostri LLM fine-tuned online.
English
Sentiment analysis is a widely researched area within Natural Language
Processing (NLP), attracting significant interest due to the advent of
automated solutions. Despite this, the task remains challenging because of the
inherent complexity of languages and the subjective nature of sentiments. It is
even more challenging for less-studied and less-resourced languages such as
Lithuanian. Our review of existing Lithuanian NLP research reveals that
traditional machine learning methods and classification algorithms have limited
effectiveness for the task. In this work, we address sentiment analysis of
Lithuanian five-star-based online reviews from multiple domains that we collect
and clean. We apply transformer models to this task for the first time,
exploring the capabilities of pre-trained multilingual Large Language Models
(LLMs), specifically focusing on fine-tuning BERT and T5 models. Given the
inherent difficulty of the task, the fine-tuned models perform quite well,
especially when the sentiments themselves are less ambiguous: 80.74% and 89.61%
testing recognition accuracy of the most popular one- and five-star reviews
respectively. They significantly outperform current commercial state-of-the-art
general-purpose LLM GPT-4. We openly share our fine-tuned LLMs online.