EduRABSA: Ein Bildungsbewertungsdatensatz für Aspekt-basierte Sentimentanalyse-Aufgaben
EduRABSA: An Education Review Dataset for Aspect-based Sentiment Analysis Tasks
August 23, 2025
papers.authors: Yan Cathy Hua, Paul Denny, Jörg Wicker, Katerina Taskova
cs.AI
papers.abstract
Jedes Jahr erhalten die meisten Bildungseinrichtungen eine enorme Menge an Textfeedback von Studierenden zu Kursen, Lehre und dem Gesamterlebnis. Die Umwandlung dieses Rohfeedbacks in nützliche Erkenntnisse ist jedoch keineswegs einfach. Es war eine langjährige Herausforderung, automatische Meinungsmining-Lösungen für solche Bildungsbewertungstextdaten zu nutzen, da die Inhalte komplex sind und die Berichterstattung nur geringe Granularität erfordert. Die Aspekt-basierte Sentiment-Analyse (ABSA) bietet eine vielversprechende Lösung mit ihren umfangreichen, unter-satzbasierten Meinungsmining-Fähigkeiten. Allerdings konzentrieren sich bestehende ABSA-Forschungen und -Ressourcen sehr stark auf den kommerziellen Bereich. Im Bildungsbereich sind sie aufgrund begrenzter öffentlicher Datensätze und strengem Datenschutz rar und schwer zu entwickeln. Ein hochwertiger, annotierter Datensatz wird dringend benötigt, um die Forschung in diesem unterversorgten Bereich voranzutreiben. In dieser Arbeit präsentieren wir EduRABSA (Education Review ABSA), den ersten öffentlichen, annotierten ABSA-Bildungsbewertungsdatensatz, der drei Bewertungstypen (Kurs, Lehrpersonal, Universität) in englischer Sprache abdeckt und alle Hauptaufgaben der ABSA, einschließlich der wenig erforschten impliziten Aspekte und impliziten Meinungsextraktion, umfasst. Wir stellen auch ASQE-DPT (Data Processing Tool) vor, ein offline, leichtgewichtiges, installationsfreies manuelles Datenannotationswerkzeug, das beschriftete Datensätze für umfassende ABSA-Aufgaben aus einer Einzelaufgaben-Annotation generiert. Gemeinsam tragen diese Ressourcen zur ABSA-Community und zum Bildungsbereich bei, indem sie die Datensatzbarriere beseitigen, die Forschungstransparenz und -reproduzierbarkeit unterstützen und die Erstellung und Weitergabe weiterer Ressourcen ermöglichen. Der Datensatz, das Annotationswerkzeug sowie Skripte und Statistiken zur Datensatzverarbeitung und -stichprobenziehung sind unter https://github.com/yhua219/edurabsa_dataset_and_annotation_tool verfügbar.
English
Every year, most educational institutions seek and receive an enormous volume
of text feedback from students on courses, teaching, and overall experience.
Yet, turning this raw feedback into useful insights is far from
straightforward. It has been a long-standing challenge to adopt automatic
opinion mining solutions for such education review text data due to the content
complexity and low-granularity reporting requirements. Aspect-based Sentiment
Analysis (ABSA) offers a promising solution with its rich, sub-sentence-level
opinion mining capabilities. However, existing ABSA research and resources are
very heavily focused on the commercial domain. In education, they are scarce
and hard to develop due to limited public datasets and strict data protection.
A high-quality, annotated dataset is urgently needed to advance research in
this under-resourced area. In this work, we present EduRABSA (Education Review
ABSA), the first public, annotated ABSA education review dataset that covers
three review subject types (course, teaching staff, university) in the English
language and all main ABSA tasks, including the under-explored implicit aspect
and implicit opinion extraction. We also share ASQE-DPT (Data Processing Tool),
an offline, lightweight, installation-free manual data annotation tool that
generates labelled datasets for comprehensive ABSA tasks from a single-task
annotation. Together, these resources contribute to the ABSA community and
education domain by removing the dataset barrier, supporting research
transparency and reproducibility, and enabling the creation and sharing of
further resources. The dataset, annotation tool, and scripts and statistics for
dataset processing and sampling are available at
https://github.com/yhua219/edurabsa_dataset_and_annotation_tool.