EduRABSA: Un Dataset di Recensioni Educative per l'Analisi del Sentimento Basata sugli Aspetti
EduRABSA: An Education Review Dataset for Aspect-based Sentiment Analysis Tasks
August 23, 2025
Autori: Yan Cathy Hua, Paul Denny, Jörg Wicker, Katerina Taskova
cs.AI
Abstract
Ogni anno, la maggior parte delle istituzioni educative raccoglie e riceve un volume enorme di feedback testuali dagli studenti su corsi, insegnamento ed esperienza complessiva. Tuttavia, trasformare questo feedback grezzo in insight utili è tutt’altro che semplice. È stata una sfida di lunga data adottare soluzioni automatiche di opinion mining per questi dati di recensioni educative a causa della complessità del contenuto e dei requisiti di reporting a bassa granularità. L’Analisi del Sentimento Basata sugli Aspetti (ABSA) offre una soluzione promettente con le sue capacità avanzate di opinion mining a livello sub-frase. Tuttavia, la ricerca e le risorse esistenti sull’ABSA sono fortemente concentrate sul dominio commerciale. Nel campo dell’educazione, sono scarse e difficili da sviluppare a causa della limitata disponibilità di dataset pubblici e delle rigide normative sulla protezione dei dati. Un dataset annotato di alta qualità è urgentemente necessario per far progredire la ricerca in quest’area sottodimensionata. In questo lavoro, presentiamo EduRABSA (Education Review ABSA), il primo dataset pubblico e annotato di recensioni educative per ABSA che copre tre tipi di soggetti di recensione (corso, personale docente, università) in lingua inglese e tutte le principali attività ABSA, inclusa l’estrazione di aspetti impliciti e opinioni implicite, ancora poco esplorate. Condividiamo inoltre ASQE-DPT (Data Processing Tool), uno strumento di annotazione manuale offline, leggero e senza necessità di installazione, che genera dataset etichettati per attività ABSA complete a partire da un’annotazione a singolo compito. Insieme, queste risorse contribuiscono alla comunità ABSA e al dominio educativo rimuovendo la barriera dei dataset, supportando la trasparenza e la riproducibilità della ricerca e consentendo la creazione e la condivisione di ulteriori risorse. Il dataset, lo strumento di annotazione, gli script e le statistiche per l’elaborazione e il campionamento del dataset sono disponibili all’indirizzo https://github.com/yhua219/edurabsa_dataset_and_annotation_tool.
English
Every year, most educational institutions seek and receive an enormous volume
of text feedback from students on courses, teaching, and overall experience.
Yet, turning this raw feedback into useful insights is far from
straightforward. It has been a long-standing challenge to adopt automatic
opinion mining solutions for such education review text data due to the content
complexity and low-granularity reporting requirements. Aspect-based Sentiment
Analysis (ABSA) offers a promising solution with its rich, sub-sentence-level
opinion mining capabilities. However, existing ABSA research and resources are
very heavily focused on the commercial domain. In education, they are scarce
and hard to develop due to limited public datasets and strict data protection.
A high-quality, annotated dataset is urgently needed to advance research in
this under-resourced area. In this work, we present EduRABSA (Education Review
ABSA), the first public, annotated ABSA education review dataset that covers
three review subject types (course, teaching staff, university) in the English
language and all main ABSA tasks, including the under-explored implicit aspect
and implicit opinion extraction. We also share ASQE-DPT (Data Processing Tool),
an offline, lightweight, installation-free manual data annotation tool that
generates labelled datasets for comprehensive ABSA tasks from a single-task
annotation. Together, these resources contribute to the ABSA community and
education domain by removing the dataset barrier, supporting research
transparency and reproducibility, and enabling the creation and sharing of
further resources. The dataset, annotation tool, and scripts and statistics for
dataset processing and sampling are available at
https://github.com/yhua219/edurabsa_dataset_and_annotation_tool.