ChatPaper.aiChatPaper

Sentimentanalyse van Litouwse online reviews met behulp van grote taalmmodellen

Sentiment Analysis of Lithuanian Online Reviews Using Large Language Models

July 29, 2024
Auteurs: Brigita Vileikytė, Mantas Lukoševičius, Lukas Stankevičius
cs.AI

Samenvatting

Sentimentanalyse is een veel onderzocht gebied binnen Natural Language Processing (NLP) en trekt aanzienlijke belangstelling vanwege de opkomst van geautomatiseerde oplossingen. Desondanks blijft de taak uitdagend vanwege de inherente complexiteit van talen en de subjectieve aard van sentimenten. Het is nog uitdagender voor minder bestudeerde en minder ondersteunde talen zoals het Litouws. Onze review van bestaand Litouws NLP-onderzoek toont aan dat traditionele machine learning-methoden en classificatie-algoritmen beperkt effectief zijn voor deze taak. In dit werk richten we ons op sentimentanalyse van Litouwse online reviews met een vijfsterrenbeoordeling uit meerdere domeinen die we verzamelen en opschonen. We passen voor het eerst transformermodellen toe op deze taak, waarbij we de mogelijkheden van vooraf getrainde meertalige Large Language Models (LLMs) verkennen, met specifieke focus op het fine-tunen van BERT- en T5-modellen. Gezien de inherente moeilijkheid van de taak presteren de gefinetunede modellen behoorlijk goed, vooral wanneer de sentimenten zelf minder ambigu zijn: 80,74% en 89,61% testherkenningsnauwkeurigheid voor de meest populaire één- en vijfsterrenreviews respectievelijk. Ze overtreffen aanzienlijk de huidige commerciële state-of-the-art algemene LLM GPT-4. We delen onze gefinetunede LLM's openlijk online.
English
Sentiment analysis is a widely researched area within Natural Language Processing (NLP), attracting significant interest due to the advent of automated solutions. Despite this, the task remains challenging because of the inherent complexity of languages and the subjective nature of sentiments. It is even more challenging for less-studied and less-resourced languages such as Lithuanian. Our review of existing Lithuanian NLP research reveals that traditional machine learning methods and classification algorithms have limited effectiveness for the task. In this work, we address sentiment analysis of Lithuanian five-star-based online reviews from multiple domains that we collect and clean. We apply transformer models to this task for the first time, exploring the capabilities of pre-trained multilingual Large Language Models (LLMs), specifically focusing on fine-tuning BERT and T5 models. Given the inherent difficulty of the task, the fine-tuned models perform quite well, especially when the sentiments themselves are less ambiguous: 80.74% and 89.61% testing recognition accuracy of the most popular one- and five-star reviews respectively. They significantly outperform current commercial state-of-the-art general-purpose LLM GPT-4. We openly share our fine-tuned LLMs online.
PDF121February 8, 2026