EduRABSA: Un Conjunto de Datos de Revisión Educativa para Tareas de Análisis de Sentimiento Basado en Aspectos
EduRABSA: An Education Review Dataset for Aspect-based Sentiment Analysis Tasks
August 23, 2025
Autores: Yan Cathy Hua, Paul Denny, Jörg Wicker, Katerina Taskova
cs.AI
Resumen
Cada año, la mayoría de las instituciones educativas recopilan y reciben un volumen enorme de comentarios textuales de los estudiantes sobre los cursos, la enseñanza y la experiencia general. Sin embargo, transformar estos comentarios en bruto en información útil dista mucho de ser sencillo. Durante mucho tiempo, ha sido un desafío adoptar soluciones automáticas de minería de opiniones para este tipo de datos de revisiones educativas debido a la complejidad del contenido y a los requisitos de reporte de baja granularidad. El Análisis de Sentimientos Basado en Aspectos (ABSA, por sus siglas en inglés) ofrece una solución prometedora con sus capacidades avanzadas de minería de opiniones a nivel de suboraciones. No obstante, las investigaciones y recursos existentes sobre ABSA están muy enfocados en el ámbito comercial. En el campo educativo, son escasos y difíciles de desarrollar debido a la limitada disponibilidad de conjuntos de datos públicos y a las estrictas normas de protección de datos. Se necesita urgentemente un conjunto de datos anotado de alta calidad para impulsar la investigación en esta área con recursos limitados. En este trabajo, presentamos EduRABSA (Education Review ABSA), el primer conjunto de datos público y anotado de ABSA para revisiones educativas que abarca tres tipos de sujetos de revisión (curso, personal docente, universidad) en idioma inglés y todas las tareas principales de ABSA, incluyendo la extracción de aspectos implícitos y opiniones implícitas, áreas poco exploradas. También compartimos ASQE-DPT (Herramienta de Procesamiento de Datos), una herramienta ligera, sin necesidad de instalación y fuera de línea para la anotación manual de datos que genera conjuntos de datos etiquetados para tareas completas de ABSA a partir de una anotación de tarea única. Juntos, estos recursos contribuyen a la comunidad de ABSA y al ámbito educativo al eliminar la barrera de los conjuntos de datos, apoyar la transparencia y reproducibilidad de la investigación, y permitir la creación y el intercambio de más recursos. El conjunto de datos, la herramienta de anotación, así como los scripts y estadísticas para el procesamiento y muestreo del conjunto de datos, están disponibles en https://github.com/yhua219/edurabsa_dataset_and_annotation_tool.
English
Every year, most educational institutions seek and receive an enormous volume
of text feedback from students on courses, teaching, and overall experience.
Yet, turning this raw feedback into useful insights is far from
straightforward. It has been a long-standing challenge to adopt automatic
opinion mining solutions for such education review text data due to the content
complexity and low-granularity reporting requirements. Aspect-based Sentiment
Analysis (ABSA) offers a promising solution with its rich, sub-sentence-level
opinion mining capabilities. However, existing ABSA research and resources are
very heavily focused on the commercial domain. In education, they are scarce
and hard to develop due to limited public datasets and strict data protection.
A high-quality, annotated dataset is urgently needed to advance research in
this under-resourced area. In this work, we present EduRABSA (Education Review
ABSA), the first public, annotated ABSA education review dataset that covers
three review subject types (course, teaching staff, university) in the English
language and all main ABSA tasks, including the under-explored implicit aspect
and implicit opinion extraction. We also share ASQE-DPT (Data Processing Tool),
an offline, lightweight, installation-free manual data annotation tool that
generates labelled datasets for comprehensive ABSA tasks from a single-task
annotation. Together, these resources contribute to the ABSA community and
education domain by removing the dataset barrier, supporting research
transparency and reproducibility, and enabling the creation and sharing of
further resources. The dataset, annotation tool, and scripts and statistics for
dataset processing and sampling are available at
https://github.com/yhua219/edurabsa_dataset_and_annotation_tool.