ChatPaper.aiChatPaper

IntrEx : Un jeu de données pour modéliser l'engagement dans les conversations éducatives

IntrEx: A Dataset for Modeling Engagement in Educational Conversations

September 8, 2025
papers.authors: Xingwei Tan, Mahathi Parvatham, Chiara Gambi, Gabriele Pergola
cs.AI

papers.abstract

L'engagement et la motivation sont essentiels pour l'acquisition d'une langue seconde, mais maintenir l'intérêt des apprenants dans les conversations éducatives reste un défi. Bien que des recherches antérieures aient exploré ce qui rend les textes éducatifs intéressants, on en sait encore peu sur les caractéristiques linguistiques qui stimulent l'engagement dans les conversations. Pour combler cette lacune, nous présentons IntrEx, le premier grand ensemble de données annoté pour l'intérêt et l'intérêt attendu dans les interactions enseignant-élève. Basé sur le corpus de conversations enseignant-élève (TSCC), IntrEx étend les travaux précédents en incorporant des annotations au niveau des séquences, permettant d'étudier l'engagement au-delà des tours de parole isolés pour capturer comment l'intérêt évolue au fil des dialogues prolongés. Nous employons un processus d'annotation rigoureux avec plus de 100 apprenants de langue seconde, utilisant une approche d'évaluation comparative inspirée de l'apprentissage par renforcement à partir de retours humains (RLHF) pour améliorer l'accord. Nous investiguons si les grands modèles de langage (LLMs) peuvent prédire les jugements humains d'intérêt. Nous constatons que les LLMs (7B/8B paramètres) affinés sur les évaluations d'intérêt surpassent les modèles propriétaires plus grands comme GPT-4o, démontrant le potentiel des ensembles de données spécialisés pour modéliser l'engagement dans les contextes éducatifs. Enfin, nous analysons comment les facteurs linguistiques et cognitifs, tels que la concrétude, la compréhensibilité (lisibilité) et la reprise, influencent l'engagement dans les dialogues éducatifs.
English
Engagement and motivation are crucial for second-language acquisition, yet maintaining learner interest in educational conversations remains a challenge. While prior research has explored what makes educational texts interesting, still little is known about the linguistic features that drive engagement in conversations. To address this gap, we introduce IntrEx, the first large dataset annotated for interestingness and expected interestingness in teacher-student interactions. Built upon the Teacher-Student Chatroom Corpus (TSCC), IntrEx extends prior work by incorporating sequence-level annotations, allowing for the study of engagement beyond isolated turns to capture how interest evolves over extended dialogues. We employ a rigorous annotation process with over 100 second-language learners, using a comparison-based rating approach inspired by reinforcement learning from human feedback (RLHF) to improve agreement. We investigate whether large language models (LLMs) can predict human interestingness judgments. We find that LLMs (7B/8B parameters) fine-tuned on interestingness ratings outperform larger proprietary models like GPT-4o, demonstrating the potential for specialised datasets to model engagement in educational settings. Finally, we analyze how linguistic and cognitive factors, such as concreteness, comprehensibility (readability), and uptake, influence engagement in educational dialogues.
PDF242September 15, 2025