ChatPaper.aiChatPaper

IntrEx: 교육적 대화에서 참여도 모델링을 위한 데이터셋

IntrEx: A Dataset for Modeling Engagement in Educational Conversations

September 8, 2025
저자: Xingwei Tan, Mahathi Parvatham, Chiara Gambi, Gabriele Pergola
cs.AI

초록

참여와 동기는 제2언어 습득에 있어 핵심적이지만, 교육적 대화에서 학습자의 흥미를 유지하는 것은 여전히 도전 과제로 남아 있습니다. 기존 연구는 교육적 텍스트가 흥미롭게 만드는 요소를 탐구했지만, 대화에서 참여를 이끄는 언어적 특징에 대해서는 아직 알려진 바가 거의 없습니다. 이러한 격차를 해결하기 위해, 우리는 교사-학생 상호작용에서 흥미로움과 예상 흥미로움을 주석 처리한 최초의 대규모 데이터셋인 IntrEx를 소개합니다. IntrEx는 교사-학생 채팅방 코퍼스(TSCC)를 기반으로 구축되었으며, 시퀀스 수준의 주석을 추가하여 단순한 턴을 넘어 확장된 대화에서 흥미가 어떻게 진화하는지를 포착할 수 있도록 기존 연구를 확장했습니다. 우리는 100명 이상의 제2언어 학습자를 대상으로 엄격한 주석 프로세스를 적용하고, 인간 피드백을 통한 강화 학습(RLHF)에서 영감을 받은 비교 기반 평가 접근법을 사용하여 일관성을 개선했습니다. 또한, 대형 언어 모델(LLM)이 인간의 흥미로움 판단을 예측할 수 있는지 조사했습니다. 그 결과, 흥미로움 평가에 미세 조정된 LLM(7B/8B 매개변수)이 GPT-4o와 같은 더 큰 상용 모델을 능가하는 것으로 나타났으며, 이는 교육 환경에서 참여를 모델링하기 위한 특화된 데이터셋의 잠재력을 보여줍니다. 마지막으로, 구체성, 이해 가능성(가독성), 수용과 같은 언어적 및 인지적 요인이 교육적 대화에서 참여에 미치는 영향을 분석했습니다.
English
Engagement and motivation are crucial for second-language acquisition, yet maintaining learner interest in educational conversations remains a challenge. While prior research has explored what makes educational texts interesting, still little is known about the linguistic features that drive engagement in conversations. To address this gap, we introduce IntrEx, the first large dataset annotated for interestingness and expected interestingness in teacher-student interactions. Built upon the Teacher-Student Chatroom Corpus (TSCC), IntrEx extends prior work by incorporating sequence-level annotations, allowing for the study of engagement beyond isolated turns to capture how interest evolves over extended dialogues. We employ a rigorous annotation process with over 100 second-language learners, using a comparison-based rating approach inspired by reinforcement learning from human feedback (RLHF) to improve agreement. We investigate whether large language models (LLMs) can predict human interestingness judgments. We find that LLMs (7B/8B parameters) fine-tuned on interestingness ratings outperform larger proprietary models like GPT-4o, demonstrating the potential for specialised datasets to model engagement in educational settings. Finally, we analyze how linguistic and cognitive factors, such as concreteness, comprehensibility (readability), and uptake, influence engagement in educational dialogues.
PDF242September 15, 2025