ChatPaper.aiChatPaper

IntrEx: Een dataset voor het modelleren van betrokkenheid in educatieve gesprekken

IntrEx: A Dataset for Modeling Engagement in Educational Conversations

September 8, 2025
Auteurs: Xingwei Tan, Mahathi Parvatham, Chiara Gambi, Gabriele Pergola
cs.AI

Samenvatting

Betrokkenheid en motivatie zijn cruciaal voor het verwerven van een tweede taal, maar het behouden van de interesse van leerlingen in educatieve gesprekken blijft een uitdaging. Hoewel eerder onderzoek heeft onderzocht wat educatieve teksten interessant maakt, is er nog steeds weinig bekend over de linguïstische kenmerken die betrokkenheid in gesprekken bevorderen. Om deze kloof te dichten, introduceren we IntrEx, de eerste grootschalige dataset die geannoteerd is voor interessantheid en verwachte interessantheid in interacties tussen docent en leerling. Gebaseerd op het Teacher-Student Chatroom Corpus (TSCC), breidt IntrEx eerder werk uit door sequentieniveau-annotaties te incorporeren, waardoor het mogelijk wordt om betrokkenheid te bestuderen die verder gaat dan geïsoleerde beurten, om te begrijpen hoe interesse evolueert in langere dialogen. We hanteren een rigoureus annotatieproces met meer dan 100 tweede-taalleerders, waarbij we een vergelijkingsgebaseerde beoordelingsmethode gebruiken die geïnspireerd is op reinforcement learning from human feedback (RLHF) om de overeenstemming te verbeteren. We onderzoeken of grote taalmmodellen (LLMs) menselijke beoordelingen van interessantheid kunnen voorspellen. We ontdekken dat LLMs (7B/8B parameters) die zijn afgestemd op interessantheidsbeoordelingen, grotere propriëtaire modellen zoals GPT-4o overtreffen, wat het potentieel aantoont van gespecialiseerde datasets om betrokkenheid in educatieve contexten te modelleren. Tot slot analyseren we hoe linguïstische en cognitieve factoren, zoals concreetheid, begrijpelijkheid (leesbaarheid) en opname, de betrokkenheid in educatieve dialogen beïnvloeden.
English
Engagement and motivation are crucial for second-language acquisition, yet maintaining learner interest in educational conversations remains a challenge. While prior research has explored what makes educational texts interesting, still little is known about the linguistic features that drive engagement in conversations. To address this gap, we introduce IntrEx, the first large dataset annotated for interestingness and expected interestingness in teacher-student interactions. Built upon the Teacher-Student Chatroom Corpus (TSCC), IntrEx extends prior work by incorporating sequence-level annotations, allowing for the study of engagement beyond isolated turns to capture how interest evolves over extended dialogues. We employ a rigorous annotation process with over 100 second-language learners, using a comparison-based rating approach inspired by reinforcement learning from human feedback (RLHF) to improve agreement. We investigate whether large language models (LLMs) can predict human interestingness judgments. We find that LLMs (7B/8B parameters) fine-tuned on interestingness ratings outperform larger proprietary models like GPT-4o, demonstrating the potential for specialised datasets to model engagement in educational settings. Finally, we analyze how linguistic and cognitive factors, such as concreteness, comprehensibility (readability), and uptake, influence engagement in educational dialogues.
PDF242September 15, 2025