ChatPaper.aiChatPaper

IntrEx: Un Conjunto de Datos para Modelar el Compromiso en Conversaciones Educativas

IntrEx: A Dataset for Modeling Engagement in Educational Conversations

September 8, 2025
Autores: Xingwei Tan, Mahathi Parvatham, Chiara Gambi, Gabriele Pergola
cs.AI

Resumen

El compromiso y la motivación son cruciales para la adquisición de un segundo idioma, sin embargo, mantener el interés de los estudiantes en conversaciones educativas sigue siendo un desafío. Aunque investigaciones previas han explorado qué hace que los textos educativos sean interesantes, aún se sabe poco sobre las características lingüísticas que impulsan el compromiso en las conversaciones. Para abordar esta brecha, presentamos IntrEx, el primer conjunto de datos grande anotado para la interesabilidad y la interesabilidad esperada en interacciones entre profesor y estudiante. Basado en el Corpus de Chat de Profesor-Estudiante (TSCC), IntrEx amplía trabajos previos al incorporar anotaciones a nivel de secuencia, permitiendo estudiar el compromiso más allá de turnos aislados para capturar cómo evoluciona el interés en diálogos extendidos. Empleamos un riguroso proceso de anotación con más de 100 estudiantes de un segundo idioma, utilizando un enfoque de calificación basado en comparaciones inspirado en el aprendizaje por refuerzo a partir de retroalimentación humana (RLHF) para mejorar el acuerdo. Investigamos si los modelos de lenguaje grandes (LLMs) pueden predecir los juicios de interesabilidad humana. Encontramos que los LLMs (7B/8B parámetros) ajustados finamente en calificaciones de interesabilidad superan a modelos propietarios más grandes como GPT-4o, demostrando el potencial de los conjuntos de datos especializados para modelar el compromiso en entornos educativos. Finalmente, analizamos cómo factores lingüísticos y cognitivos, como la concreción, la comprensibilidad (legibilidad) y la asimilación, influyen en el compromiso en diálogos educativos.
English
Engagement and motivation are crucial for second-language acquisition, yet maintaining learner interest in educational conversations remains a challenge. While prior research has explored what makes educational texts interesting, still little is known about the linguistic features that drive engagement in conversations. To address this gap, we introduce IntrEx, the first large dataset annotated for interestingness and expected interestingness in teacher-student interactions. Built upon the Teacher-Student Chatroom Corpus (TSCC), IntrEx extends prior work by incorporating sequence-level annotations, allowing for the study of engagement beyond isolated turns to capture how interest evolves over extended dialogues. We employ a rigorous annotation process with over 100 second-language learners, using a comparison-based rating approach inspired by reinforcement learning from human feedback (RLHF) to improve agreement. We investigate whether large language models (LLMs) can predict human interestingness judgments. We find that LLMs (7B/8B parameters) fine-tuned on interestingness ratings outperform larger proprietary models like GPT-4o, demonstrating the potential for specialised datasets to model engagement in educational settings. Finally, we analyze how linguistic and cognitive factors, such as concreteness, comprehensibility (readability), and uptake, influence engagement in educational dialogues.
PDF242September 15, 2025