Análise de Sentimento de Avaliações Online em Lituano Utilizando Modelos de Linguagem Grandes
Sentiment Analysis of Lithuanian Online Reviews Using Large Language Models
July 29, 2024
Autores: Brigita Vileikytė, Mantas Lukoševičius, Lukas Stankevičius
cs.AI
Resumo
A análise de sentimento é uma área amplamente pesquisada dentro do Processamento de Linguagem Natural (PLN), atraindo interesse significativo devido ao surgimento de soluções automatizadas. Apesar disso, a tarefa continua desafiadora devido à complexidade inerente das línguas e à natureza subjetiva dos sentimentos. É ainda mais desafiador para línguas menos estudadas e com menos recursos, como o lituano. Nossa revisão da pesquisa existente em PLN lituano revela que os métodos tradicionais de aprendizado de máquina e algoritmos de classificação têm eficácia limitada para a tarefa. Neste trabalho, abordamos a análise de sentimento de avaliações online lituanas baseadas em cinco estrelas de múltiplos domínios que coletamos e limpamos. Aplicamos modelos transformer a esta tarefa pela primeira vez, explorando as capacidades de Modelos de Linguagem Grandes (LLMs) multilíngues pré-treinados, focando especificamente no ajuste fino dos modelos BERT e T5. Dada a dificuldade inerente da tarefa, os modelos ajustados finamente têm um desempenho bastante bom, especialmente quando os sentimentos em si são menos ambíguos: 80,74% e 89,61% de precisão de reconhecimento nos testes das avaliações mais populares de uma e cinco estrelas, respectivamente. Eles superam significativamente o estado da arte comercial atual do LLM de propósito geral GPT-4. Compartilhamos abertamente nossos LLMs ajustados finamente online.
English
Sentiment analysis is a widely researched area within Natural Language
Processing (NLP), attracting significant interest due to the advent of
automated solutions. Despite this, the task remains challenging because of the
inherent complexity of languages and the subjective nature of sentiments. It is
even more challenging for less-studied and less-resourced languages such as
Lithuanian. Our review of existing Lithuanian NLP research reveals that
traditional machine learning methods and classification algorithms have limited
effectiveness for the task. In this work, we address sentiment analysis of
Lithuanian five-star-based online reviews from multiple domains that we collect
and clean. We apply transformer models to this task for the first time,
exploring the capabilities of pre-trained multilingual Large Language Models
(LLMs), specifically focusing on fine-tuning BERT and T5 models. Given the
inherent difficulty of the task, the fine-tuned models perform quite well,
especially when the sentiments themselves are less ambiguous: 80.74% and 89.61%
testing recognition accuracy of the most popular one- and five-star reviews
respectively. They significantly outperform current commercial state-of-the-art
general-purpose LLM GPT-4. We openly share our fine-tuned LLMs online.Summary
AI-Generated Summary