Анализ тональности литовских онлайн-отзывов с использованием больших языковых моделей

Аннотация

Анализ тональности - широко исследуемая область в рамках обработки естественного языка (Natural Language Processing, NLP), привлекающая значительный интерес благодаря появлению автоматизированных решений. Тем не менее, задача остается сложной из-за врожденной сложности языков и субъективной природы эмоций. Она становится еще более сложной для менее изученных и менее ресурсных языков, таких как литовский. Наш обзор существующих исследований в области NLP на литовском языке показывает, что традиционные методы машинного обучения и алгоритмы классификации оказывают ограниченное воздействие на задачу. В данной работе мы занимаемся анализом тональности литовских онлайн-отзывов на основе пятизвездочной шкалы из различных областей, которые мы собираем и очищаем. Впервые мы применяем модели трансформера к этой задаче, исследуя возможности предварительно обученных многоязычных крупных языковых моделей (Large Language Models, LLMs), сосредотачиваясь на настройке моделей BERT и T5. Учитывая врожденную сложность задачи, настроенные модели показывают довольно хорошие результаты, особенно когда сами эмоции менее двусмысленны: точность распознавания на тестовых данных составляет 80.74% и 89.61% для отзывов с одной и пятью звездами соответственно. Они значительно превосходят текущую коммерческую передовую общего назначения LLM GPT-4. Мы открыто делимся нашими настроенными LLMs онлайн.

English

Sentiment analysis is a widely researched area within Natural Language Processing (NLP), attracting significant interest due to the advent of automated solutions. Despite this, the task remains challenging because of the inherent complexity of languages and the subjective nature of sentiments. It is even more challenging for less-studied and less-resourced languages such as Lithuanian. Our review of existing Lithuanian NLP research reveals that traditional machine learning methods and classification algorithms have limited effectiveness for the task. In this work, we address sentiment analysis of Lithuanian five-star-based online reviews from multiple domains that we collect and clean. We apply transformer models to this task for the first time, exploring the capabilities of pre-trained multilingual Large Language Models (LLMs), specifically focusing on fine-tuning BERT and T5 models. Given the inherent difficulty of the task, the fine-tuned models perform quite well, especially when the sentiments themselves are less ambiguous: 80.74% and 89.61% testing recognition accuracy of the most popular one- and five-star reviews respectively. They significantly outperform current commercial state-of-the-art general-purpose LLM GPT-4. We openly share our fine-tuned LLMs online.

Анализ тональности литовских онлайн-отзывов с использованием больших языковых моделей

Sentiment Analysis of Lithuanian Online Reviews Using Large Language Models

Аннотация

Support