EduRABSA: Набор данных для анализа аспектно-ориентированных настроений в образовательных обзорах
EduRABSA: An Education Review Dataset for Aspect-based Sentiment Analysis Tasks
August 23, 2025
Авторы: Yan Cathy Hua, Paul Denny, Jörg Wicker, Katerina Taskova
cs.AI
Аннотация
Ежегодно большинство образовательных учреждений собирают и получают огромный объем текстовых отзывов от студентов о курсах, преподавателях и общем опыте обучения. Однако преобразование этих необработанных отзывов в полезные инсайты далеко не просто. Долгое время оставалось сложной задачей внедрение автоматических решений для анализа мнений в таких данных образовательных отзывов из-за сложности содержания и требований к низкогранулярной отчетности. Аспектно-ориентированный анализ тональности (Aspect-based Sentiment Analysis, ABSA) предлагает перспективное решение благодаря своим возможностям анализа мнений на уровне подпредложений. Однако существующие исследования и ресурсы в области ABSA в значительной степени сосредоточены на коммерческой сфере. В образовательной сфере они редки и сложны для разработки из-за ограниченного количества публичных наборов данных и строгой защиты данных. Высококачественный аннотированный набор данных крайне необходим для продвижения исследований в этой недостаточно изученной области. В данной работе мы представляем EduRABSA (Education Review ABSA) — первый публичный аннотированный набор данных ABSA для образовательных отзывов, охватывающий три типа объектов отзывов (курс, преподавательский состав, университет) на английском языке и все основные задачи ABSA, включая малоизученные задачи извлечения неявных аспектов и неявных мнений. Мы также представляем ASQE-DPT (Data Processing Tool) — автономный, легковесный инструмент для ручной аннотации данных, не требующий установки, который генерирует размеченные наборы данных для комплексных задач ABSA на основе аннотации одной задачи. Вместе эти ресурсы вносят вклад в сообщество ABSA и образовательную сферу, устраняя барьер в виде отсутствия данных, поддерживая прозрачность и воспроизводимость исследований, а также способствуя созданию и обмену дополнительными ресурсами. Набор данных, инструмент для аннотации, а также скрипты и статистика для обработки и выборки данных доступны по адресу https://github.com/yhua219/edurabsa_dataset_and_annotation_tool.
English
Every year, most educational institutions seek and receive an enormous volume
of text feedback from students on courses, teaching, and overall experience.
Yet, turning this raw feedback into useful insights is far from
straightforward. It has been a long-standing challenge to adopt automatic
opinion mining solutions for such education review text data due to the content
complexity and low-granularity reporting requirements. Aspect-based Sentiment
Analysis (ABSA) offers a promising solution with its rich, sub-sentence-level
opinion mining capabilities. However, existing ABSA research and resources are
very heavily focused on the commercial domain. In education, they are scarce
and hard to develop due to limited public datasets and strict data protection.
A high-quality, annotated dataset is urgently needed to advance research in
this under-resourced area. In this work, we present EduRABSA (Education Review
ABSA), the first public, annotated ABSA education review dataset that covers
three review subject types (course, teaching staff, university) in the English
language and all main ABSA tasks, including the under-explored implicit aspect
and implicit opinion extraction. We also share ASQE-DPT (Data Processing Tool),
an offline, lightweight, installation-free manual data annotation tool that
generates labelled datasets for comprehensive ABSA tasks from a single-task
annotation. Together, these resources contribute to the ABSA community and
education domain by removing the dataset barrier, supporting research
transparency and reproducibility, and enabling the creation and sharing of
further resources. The dataset, annotation tool, and scripts and statistics for
dataset processing and sampling are available at
https://github.com/yhua219/edurabsa_dataset_and_annotation_tool.