ChatPaper.aiChatPaper

EduRABSA: Un Conjunto de Datos de Revisión Educativa para Tareas de Análisis de Sentimiento Basado en Aspectos

EduRABSA: An Education Review Dataset for Aspect-based Sentiment Analysis Tasks

August 23, 2025
Autores: Yan Cathy Hua, Paul Denny, Jörg Wicker, Katerina Taskova
cs.AI

Resumen

Cada año, la mayoría de las instituciones educativas recopilan y reciben un volumen enorme de comentarios textuales de los estudiantes sobre los cursos, la enseñanza y la experiencia general. Sin embargo, transformar estos comentarios en bruto en información útil dista mucho de ser sencillo. Durante mucho tiempo, ha sido un desafío adoptar soluciones automáticas de minería de opiniones para este tipo de datos de revisiones educativas debido a la complejidad del contenido y a los requisitos de reporte de baja granularidad. El Análisis de Sentimientos Basado en Aspectos (ABSA, por sus siglas en inglés) ofrece una solución prometedora con sus capacidades avanzadas de minería de opiniones a nivel de suboraciones. No obstante, las investigaciones y recursos existentes sobre ABSA están muy enfocados en el ámbito comercial. En el campo educativo, son escasos y difíciles de desarrollar debido a la limitada disponibilidad de conjuntos de datos públicos y a las estrictas normas de protección de datos. Se necesita urgentemente un conjunto de datos anotado de alta calidad para impulsar la investigación en esta área con recursos limitados. En este trabajo, presentamos EduRABSA (Education Review ABSA), el primer conjunto de datos público y anotado de ABSA para revisiones educativas que abarca tres tipos de sujetos de revisión (curso, personal docente, universidad) en idioma inglés y todas las tareas principales de ABSA, incluyendo la extracción de aspectos implícitos y opiniones implícitas, áreas poco exploradas. También compartimos ASQE-DPT (Herramienta de Procesamiento de Datos), una herramienta ligera, sin necesidad de instalación y fuera de línea para la anotación manual de datos que genera conjuntos de datos etiquetados para tareas completas de ABSA a partir de una anotación de tarea única. Juntos, estos recursos contribuyen a la comunidad de ABSA y al ámbito educativo al eliminar la barrera de los conjuntos de datos, apoyar la transparencia y reproducibilidad de la investigación, y permitir la creación y el intercambio de más recursos. El conjunto de datos, la herramienta de anotación, así como los scripts y estadísticas para el procesamiento y muestreo del conjunto de datos, están disponibles en https://github.com/yhua219/edurabsa_dataset_and_annotation_tool.
English
Every year, most educational institutions seek and receive an enormous volume of text feedback from students on courses, teaching, and overall experience. Yet, turning this raw feedback into useful insights is far from straightforward. It has been a long-standing challenge to adopt automatic opinion mining solutions for such education review text data due to the content complexity and low-granularity reporting requirements. Aspect-based Sentiment Analysis (ABSA) offers a promising solution with its rich, sub-sentence-level opinion mining capabilities. However, existing ABSA research and resources are very heavily focused on the commercial domain. In education, they are scarce and hard to develop due to limited public datasets and strict data protection. A high-quality, annotated dataset is urgently needed to advance research in this under-resourced area. In this work, we present EduRABSA (Education Review ABSA), the first public, annotated ABSA education review dataset that covers three review subject types (course, teaching staff, university) in the English language and all main ABSA tasks, including the under-explored implicit aspect and implicit opinion extraction. We also share ASQE-DPT (Data Processing Tool), an offline, lightweight, installation-free manual data annotation tool that generates labelled datasets for comprehensive ABSA tasks from a single-task annotation. Together, these resources contribute to the ABSA community and education domain by removing the dataset barrier, supporting research transparency and reproducibility, and enabling the creation and sharing of further resources. The dataset, annotation tool, and scripts and statistics for dataset processing and sampling are available at https://github.com/yhua219/edurabsa_dataset_and_annotation_tool.
PDF02September 1, 2025