EduRABSA : Un ensemble de données d'évaluation éducative pour les tâches d'analyse de sentiments basée sur les aspects
EduRABSA: An Education Review Dataset for Aspect-based Sentiment Analysis Tasks
August 23, 2025
papers.authors: Yan Cathy Hua, Paul Denny, Jörg Wicker, Katerina Taskova
cs.AI
papers.abstract
Chaque année, la plupart des établissements d'enseignement collectent et reçoivent un volume considérable de retours textuels de la part des étudiants concernant les cours, l'enseignement et l'expérience globale. Cependant, transformer ces retours bruts en informations utiles est loin d'être simple. Il s'agit d'un défi de longue date d'adopter des solutions automatiques d'analyse d'opinion pour ces données de revues éducatives en raison de la complexité du contenu et des exigences de rapport à faible granularité. L'analyse de sentiments basée sur les aspects (Aspect-based Sentiment Analysis, ABSA) offre une solution prometteuse avec ses capacités riches d'extraction d'opinions au niveau sub-phrase. Cependant, les recherches et ressources existantes en ABSA sont très fortement concentrées sur le domaine commercial. Dans le domaine de l'éducation, elles sont rares et difficiles à développer en raison de la limitation des ensembles de données publics et de la stricte protection des données. Un ensemble de données annoté de haute qualité est urgemment nécessaire pour faire progresser la recherche dans ce domaine sous-équipé. Dans ce travail, nous présentons EduRABSA (Education Review ABSA), le premier ensemble de données public et annoté d'ABSA pour les revues éducatives, couvrant trois types de sujets de revue (cours, personnel enseignant, université) en langue anglaise et toutes les principales tâches ABSA, y compris l'extraction d'aspects implicites et d'opinions implicites, peu explorées. Nous partageons également ASQE-DPT (Data Processing Tool), un outil manuel d'annotation de données hors ligne, léger et sans installation, qui génère des ensembles de données étiquetés pour des tâches ABSA complètes à partir d'une annotation à tâche unique. Ensemble, ces ressources contribuent à la communauté ABSA et au domaine de l'éducation en supprimant la barrière des ensembles de données, en soutenant la transparence et la reproductibilité de la recherche, et en permettant la création et le partage de ressources supplémentaires. L'ensemble de données, l'outil d'annotation, ainsi que les scripts et statistiques pour le traitement et l'échantillonnage des données sont disponibles à l'adresse suivante : https://github.com/yhua219/edurabsa_dataset_and_annotation_tool.
English
Every year, most educational institutions seek and receive an enormous volume
of text feedback from students on courses, teaching, and overall experience.
Yet, turning this raw feedback into useful insights is far from
straightforward. It has been a long-standing challenge to adopt automatic
opinion mining solutions for such education review text data due to the content
complexity and low-granularity reporting requirements. Aspect-based Sentiment
Analysis (ABSA) offers a promising solution with its rich, sub-sentence-level
opinion mining capabilities. However, existing ABSA research and resources are
very heavily focused on the commercial domain. In education, they are scarce
and hard to develop due to limited public datasets and strict data protection.
A high-quality, annotated dataset is urgently needed to advance research in
this under-resourced area. In this work, we present EduRABSA (Education Review
ABSA), the first public, annotated ABSA education review dataset that covers
three review subject types (course, teaching staff, university) in the English
language and all main ABSA tasks, including the under-explored implicit aspect
and implicit opinion extraction. We also share ASQE-DPT (Data Processing Tool),
an offline, lightweight, installation-free manual data annotation tool that
generates labelled datasets for comprehensive ABSA tasks from a single-task
annotation. Together, these resources contribute to the ABSA community and
education domain by removing the dataset barrier, supporting research
transparency and reproducibility, and enabling the creation and sharing of
further resources. The dataset, annotation tool, and scripts and statistics for
dataset processing and sampling are available at
https://github.com/yhua219/edurabsa_dataset_and_annotation_tool.