ChatPaper.aiChatPaper

IntrEx: Un Dataset per la Modellazione del Coinvolgimento nelle Conversazioni Educative

IntrEx: A Dataset for Modeling Engagement in Educational Conversations

September 8, 2025
Autori: Xingwei Tan, Mahathi Parvatham, Chiara Gambi, Gabriele Pergola
cs.AI

Abstract

L'impegno e la motivazione sono cruciali per l'acquisizione di una seconda lingua, tuttavia mantenere l'interesse degli studenti nelle conversazioni educative rimane una sfida. Sebbene ricerche precedenti abbiano esplorato ciò che rende i testi educativi interessanti, si sa ancora poco sulle caratteristiche linguistiche che favoriscono l'engagement nelle conversazioni. Per colmare questa lacuna, introduciamo IntrEx, il primo ampio dataset annotato per l'interessantezza e l'interessantezza attesa nelle interazioni insegnante-studente. Basato sul Teacher-Student Chatroom Corpus (TSCC), IntrEx estende il lavoro precedente incorporando annotazioni a livello di sequenza, consentendo lo studio dell'engagement oltre i turni isolati per catturare come l'interesse si evolve nei dialoghi estesi. Utilizziamo un rigoroso processo di annotazione con oltre 100 studenti di seconda lingua, adottando un approccio di valutazione comparativa ispirato al reinforcement learning da feedback umano (RLHF) per migliorare l'accordo. Indaghiamo se i grandi modelli linguistici (LLM) possono prevedere i giudizi umani sull'interessantezza. Scopriamo che i LLM (7B/8B parametri) fine-tuned sulle valutazioni di interessantezza superano modelli proprietari più grandi come GPT-4o, dimostrando il potenziale dei dataset specializzati per modellare l'engagement in contesti educativi. Infine, analizziamo come fattori linguistici e cognitivi, come la concretezza, la comprensibilità (leggibilità) e l'assimilazione, influenzino l'engagement nei dialoghi educativi.
English
Engagement and motivation are crucial for second-language acquisition, yet maintaining learner interest in educational conversations remains a challenge. While prior research has explored what makes educational texts interesting, still little is known about the linguistic features that drive engagement in conversations. To address this gap, we introduce IntrEx, the first large dataset annotated for interestingness and expected interestingness in teacher-student interactions. Built upon the Teacher-Student Chatroom Corpus (TSCC), IntrEx extends prior work by incorporating sequence-level annotations, allowing for the study of engagement beyond isolated turns to capture how interest evolves over extended dialogues. We employ a rigorous annotation process with over 100 second-language learners, using a comparison-based rating approach inspired by reinforcement learning from human feedback (RLHF) to improve agreement. We investigate whether large language models (LLMs) can predict human interestingness judgments. We find that LLMs (7B/8B parameters) fine-tuned on interestingness ratings outperform larger proprietary models like GPT-4o, demonstrating the potential for specialised datasets to model engagement in educational settings. Finally, we analyze how linguistic and cognitive factors, such as concreteness, comprehensibility (readability), and uptake, influence engagement in educational dialogues.
PDF242September 15, 2025