ChatPaper.aiChatPaper

대형 언어 모델을 활용한 리투아니아어 온라인 리뷰 감성 분석

Sentiment Analysis of Lithuanian Online Reviews Using Large Language Models

July 29, 2024
저자: Brigita Vileikytė, Mantas Lukoševičius, Lukas Stankevičius
cs.AI

초록

감정 분석은 자연어 처리(NLP) 분야에서 널리 연구되는 주제로, 자동화 솔루션의 등장으로 인해 상당한 관심을 끌고 있습니다. 그러나 언어의 본질적인 복잡성과 감정의 주관적 특성으로 인해 이 작업은 여전히 도전적인 과제로 남아 있습니다. 특히 리투아니아어와 같이 연구가 덜 진행되고 자원이 부족한 언어의 경우 더욱 어려운 과제가 됩니다. 기존의 리투아니아어 NLP 연구를 검토한 결과, 전통적인 머신러닝 방법과 분류 알고리즘은 이 작업에 대해 제한적인 효과를 보이는 것으로 나타났습니다. 본 연구에서는 수집 및 정제한 다중 도메인의 리투아니아어 5점 척도 기반 온라인 리뷰에 대한 감정 분석을 다룹니다. 우리는 이 작업에 트랜스포머 모델을 처음으로 적용하며, 사전 훈련된 다국어 대형 언어 모델(LLM)의 능력을 탐구하고, 특히 BERT와 T5 모델의 미세 조정에 초점을 맞춥니다. 작업의 본질적인 어려움을 고려할 때, 미세 조정된 모델은 특히 감정 자체가 덜 모호한 경우 상당히 우수한 성능을 보였습니다: 가장 인기 있는 1점 및 5점 리뷰에 대해 각각 80.74%와 89.61%의 테스트 인식 정확도를 달성했습니다. 이 모델들은 현재 상용 최첨단 범용 LLM인 GPT-4를 크게 능가하는 성능을 보였습니다. 우리는 미세 조정된 LLM을 온라인에 공개하여 공유합니다.
English
Sentiment analysis is a widely researched area within Natural Language Processing (NLP), attracting significant interest due to the advent of automated solutions. Despite this, the task remains challenging because of the inherent complexity of languages and the subjective nature of sentiments. It is even more challenging for less-studied and less-resourced languages such as Lithuanian. Our review of existing Lithuanian NLP research reveals that traditional machine learning methods and classification algorithms have limited effectiveness for the task. In this work, we address sentiment analysis of Lithuanian five-star-based online reviews from multiple domains that we collect and clean. We apply transformer models to this task for the first time, exploring the capabilities of pre-trained multilingual Large Language Models (LLMs), specifically focusing on fine-tuning BERT and T5 models. Given the inherent difficulty of the task, the fine-tuned models perform quite well, especially when the sentiments themselves are less ambiguous: 80.74% and 89.61% testing recognition accuracy of the most popular one- and five-star reviews respectively. They significantly outperform current commercial state-of-the-art general-purpose LLM GPT-4. We openly share our fine-tuned LLMs online.

Summary

AI-Generated Summary

PDF121November 28, 2024