EduRABSA: Um Conjunto de Dados de Revisões Educacionais para Tarefas de Análise de Sentimento Baseada em Aspectos
EduRABSA: An Education Review Dataset for Aspect-based Sentiment Analysis Tasks
August 23, 2025
Autores: Yan Cathy Hua, Paul Denny, Jörg Wicker, Katerina Taskova
cs.AI
Resumo
Todos os anos, a maioria das instituições de ensino busca e recebe um volume enorme de feedback textual dos alunos sobre cursos, ensino e experiência geral. No entanto, transformar esse feedback bruto em insights úteis está longe de ser simples. Tem sido um desafio de longa data adotar soluções automáticas de mineração de opiniões para esses dados de avaliação educacional devido à complexidade do conteúdo e aos requisitos de relatórios de baixa granularidade. A Análise de Sentimento Baseada em Aspectos (ABSA) oferece uma solução promissora com suas capacidades ricas de mineração de opiniões em nível de subfrase. No entanto, as pesquisas e recursos existentes em ABSA estão muito focados no domínio comercial. Na educação, eles são escassos e difíceis de desenvolver devido à limitação de conjuntos de dados públicos e à rigorosa proteção de dados. Um conjunto de dados anotado de alta qualidade é urgentemente necessário para avançar a pesquisa nessa área subutilizada. Neste trabalho, apresentamos o EduRABSA (Education Review ABSA), o primeiro conjunto de dados público e anotado de ABSA para avaliações educacionais que abrange três tipos de sujeitos de avaliação (curso, corpo docente, universidade) em inglês e todas as principais tarefas de ABSA, incluindo a extração de aspectos implícitos e opiniões implícitas, que são pouco exploradas. Também compartilhamos o ASQE-DPT (Ferramenta de Processamento de Dados), uma ferramenta manual de anotação de dados offline, leve e sem necessidade de instalação, que gera conjuntos de dados rotulados para tarefas abrangentes de ABSA a partir de uma anotação de tarefa única. Juntos, esses recursos contribuem para a comunidade de ABSA e o domínio da educação, removendo a barreira de conjuntos de dados, apoiando a transparência e a reprodutibilidade da pesquisa e permitindo a criação e o compartilhamento de mais recursos. O conjunto de dados, a ferramenta de anotação, os scripts e as estatísticas para processamento e amostragem de dados estão disponíveis em https://github.com/yhua219/edurabsa_dataset_and_annotation_tool.
English
Every year, most educational institutions seek and receive an enormous volume
of text feedback from students on courses, teaching, and overall experience.
Yet, turning this raw feedback into useful insights is far from
straightforward. It has been a long-standing challenge to adopt automatic
opinion mining solutions for such education review text data due to the content
complexity and low-granularity reporting requirements. Aspect-based Sentiment
Analysis (ABSA) offers a promising solution with its rich, sub-sentence-level
opinion mining capabilities. However, existing ABSA research and resources are
very heavily focused on the commercial domain. In education, they are scarce
and hard to develop due to limited public datasets and strict data protection.
A high-quality, annotated dataset is urgently needed to advance research in
this under-resourced area. In this work, we present EduRABSA (Education Review
ABSA), the first public, annotated ABSA education review dataset that covers
three review subject types (course, teaching staff, university) in the English
language and all main ABSA tasks, including the under-explored implicit aspect
and implicit opinion extraction. We also share ASQE-DPT (Data Processing Tool),
an offline, lightweight, installation-free manual data annotation tool that
generates labelled datasets for comprehensive ABSA tasks from a single-task
annotation. Together, these resources contribute to the ABSA community and
education domain by removing the dataset barrier, supporting research
transparency and reproducibility, and enabling the creation and sharing of
further resources. The dataset, annotation tool, and scripts and statistics for
dataset processing and sampling are available at
https://github.com/yhua219/edurabsa_dataset_and_annotation_tool.