Анализ тональности литовских онлайн-отзывов с использованием больших языковых моделей
Sentiment Analysis of Lithuanian Online Reviews Using Large Language Models
July 29, 2024
Авторы: Brigita Vileikytė, Mantas Lukoševičius, Lukas Stankevičius
cs.AI
Аннотация
Анализ тональности - широко исследуемая область в рамках обработки естественного языка (Natural Language Processing, NLP), привлекающая значительный интерес благодаря появлению автоматизированных решений. Тем не менее, задача остается сложной из-за врожденной сложности языков и субъективной природы эмоций. Она становится еще более сложной для менее изученных и менее ресурсных языков, таких как литовский. Наш обзор существующих исследований в области NLP на литовском языке показывает, что традиционные методы машинного обучения и алгоритмы классификации оказывают ограниченное воздействие на задачу. В данной работе мы занимаемся анализом тональности литовских онлайн-отзывов на основе пятизвездочной шкалы из различных областей, которые мы собираем и очищаем. Впервые мы применяем модели трансформера к этой задаче, исследуя возможности предварительно обученных многоязычных крупных языковых моделей (Large Language Models, LLMs), сосредотачиваясь на настройке моделей BERT и T5. Учитывая врожденную сложность задачи, настроенные модели показывают довольно хорошие результаты, особенно когда сами эмоции менее двусмысленны: точность распознавания на тестовых данных составляет 80.74% и 89.61% для отзывов с одной и пятью звездами соответственно. Они значительно превосходят текущую коммерческую передовую общего назначения LLM GPT-4. Мы открыто делимся нашими настроенными LLMs онлайн.
English
Sentiment analysis is a widely researched area within Natural Language
Processing (NLP), attracting significant interest due to the advent of
automated solutions. Despite this, the task remains challenging because of the
inherent complexity of languages and the subjective nature of sentiments. It is
even more challenging for less-studied and less-resourced languages such as
Lithuanian. Our review of existing Lithuanian NLP research reveals that
traditional machine learning methods and classification algorithms have limited
effectiveness for the task. In this work, we address sentiment analysis of
Lithuanian five-star-based online reviews from multiple domains that we collect
and clean. We apply transformer models to this task for the first time,
exploring the capabilities of pre-trained multilingual Large Language Models
(LLMs), specifically focusing on fine-tuning BERT and T5 models. Given the
inherent difficulty of the task, the fine-tuned models perform quite well,
especially when the sentiments themselves are less ambiguous: 80.74% and 89.61%
testing recognition accuracy of the most popular one- and five-star reviews
respectively. They significantly outperform current commercial state-of-the-art
general-purpose LLM GPT-4. We openly share our fine-tuned LLMs online.Summary
AI-Generated Summary