EduRABSA: 측면 기반 감정 분석 작업을 위한 교육 리뷰 데이터셋
EduRABSA: An Education Review Dataset for Aspect-based Sentiment Analysis Tasks
August 23, 2025
저자: Yan Cathy Hua, Paul Denny, Jörg Wicker, Katerina Taskova
cs.AI
초록
매년 대부분의 교육 기관은 학생들로부터 강좌, 교수법, 그리고 전반적인 경험에 대한 방대한 양의 텍스트 피드백을 수집합니다. 그러나 이러한 원시 피드백을 유용한 통찰로 전환하는 것은 결코 간단하지 않습니다. 교육 리뷰 텍스트 데이터에 대한 자동화된 의견 마이닝 솔루션을 도입하는 것은 내용의 복잡성과 세분화된 보고 요구 사항으로 인해 오랜 기간 동안 어려운 과제로 남아 있었습니다. Aspect 기반 감정 분석(ABSA)은 하위 문장 수준의 풍부한 의견 마이닝 기능을 통해 유망한 해결책을 제공합니다. 그러나 기존의 ABSA 연구와 자원은 상업적 영역에 지나치게 집중되어 있습니다. 교육 분야에서는 공개 데이터셋의 부족과 엄격한 데이터 보호로 인해 ABSA 자원이 부족하고 개발하기 어렵습니다. 이와 같은 자원이 부족한 분야에서 연구를 진전시키기 위해서는 고품질의 주석이 달린 데이터셋이 시급히 필요합니다. 본 연구에서는 EduRABSA(Education Review ABSA)를 소개합니다. 이는 영어로 작성된 세 가지 리뷰 주제 유형(강좌, 교직원, 대학)과 암묵적 측면 및 암묵적 의견 추출을 포함한 모든 주요 ABSA 작업을 다루는 최초의 공개 주석 ABSA 교육 리뷰 데이터셋입니다. 또한 ASQE-DPT(Data Processing Tool)를 공유합니다. 이는 오프라인에서 작동하며 가볍고 설치가 필요 없는 수동 데이터 주석 도구로, 단일 작업 주석에서 포괄적인 ABSA 작업을 위한 레이블이 달린 데이터셋을 생성합니다. 이러한 자원들은 데이터셋 장벽을 제거하고 연구의 투명성과 재현성을 지원하며 추가 자원의 생성과 공유를 가능하게 함으로써 ABSA 커뮤니티와 교육 분야에 기여합니다. 데이터셋, 주석 도구, 그리고 데이터셋 처리 및 샘플링을 위한 스크립트와 통계는 https://github.com/yhua219/edurabsa_dataset_and_annotation_tool에서 확인할 수 있습니다.
English
Every year, most educational institutions seek and receive an enormous volume
of text feedback from students on courses, teaching, and overall experience.
Yet, turning this raw feedback into useful insights is far from
straightforward. It has been a long-standing challenge to adopt automatic
opinion mining solutions for such education review text data due to the content
complexity and low-granularity reporting requirements. Aspect-based Sentiment
Analysis (ABSA) offers a promising solution with its rich, sub-sentence-level
opinion mining capabilities. However, existing ABSA research and resources are
very heavily focused on the commercial domain. In education, they are scarce
and hard to develop due to limited public datasets and strict data protection.
A high-quality, annotated dataset is urgently needed to advance research in
this under-resourced area. In this work, we present EduRABSA (Education Review
ABSA), the first public, annotated ABSA education review dataset that covers
three review subject types (course, teaching staff, university) in the English
language and all main ABSA tasks, including the under-explored implicit aspect
and implicit opinion extraction. We also share ASQE-DPT (Data Processing Tool),
an offline, lightweight, installation-free manual data annotation tool that
generates labelled datasets for comprehensive ABSA tasks from a single-task
annotation. Together, these resources contribute to the ABSA community and
education domain by removing the dataset barrier, supporting research
transparency and reproducibility, and enabling the creation and sharing of
further resources. The dataset, annotation tool, and scripts and statistics for
dataset processing and sampling are available at
https://github.com/yhua219/edurabsa_dataset_and_annotation_tool.