IntrEx: Un Conjunto de Datos para Modelar el Compromiso en Conversaciones Educativas
IntrEx: A Dataset for Modeling Engagement in Educational Conversations
September 8, 2025
Autores: Xingwei Tan, Mahathi Parvatham, Chiara Gambi, Gabriele Pergola
cs.AI
Resumen
El compromiso y la motivación son cruciales para la adquisición de un segundo idioma, sin embargo, mantener el interés de los estudiantes en conversaciones educativas sigue siendo un desafío. Aunque investigaciones previas han explorado qué hace que los textos educativos sean interesantes, aún se sabe poco sobre las características lingüísticas que impulsan el compromiso en las conversaciones. Para abordar esta brecha, presentamos IntrEx, el primer conjunto de datos grande anotado para la interesabilidad y la interesabilidad esperada en interacciones entre profesor y estudiante. Basado en el Corpus de Chat de Profesor-Estudiante (TSCC), IntrEx amplía trabajos previos al incorporar anotaciones a nivel de secuencia, permitiendo estudiar el compromiso más allá de turnos aislados para capturar cómo evoluciona el interés en diálogos extendidos. Empleamos un riguroso proceso de anotación con más de 100 estudiantes de un segundo idioma, utilizando un enfoque de calificación basado en comparaciones inspirado en el aprendizaje por refuerzo a partir de retroalimentación humana (RLHF) para mejorar el acuerdo. Investigamos si los modelos de lenguaje grandes (LLMs) pueden predecir los juicios de interesabilidad humana. Encontramos que los LLMs (7B/8B parámetros) ajustados finamente en calificaciones de interesabilidad superan a modelos propietarios más grandes como GPT-4o, demostrando el potencial de los conjuntos de datos especializados para modelar el compromiso en entornos educativos. Finalmente, analizamos cómo factores lingüísticos y cognitivos, como la concreción, la comprensibilidad (legibilidad) y la asimilación, influyen en el compromiso en diálogos educativos.
English
Engagement and motivation are crucial for second-language acquisition, yet
maintaining learner interest in educational conversations remains a challenge.
While prior research has explored what makes educational texts interesting,
still little is known about the linguistic features that drive engagement in
conversations. To address this gap, we introduce IntrEx, the first large
dataset annotated for interestingness and expected interestingness in
teacher-student interactions. Built upon the Teacher-Student Chatroom Corpus
(TSCC), IntrEx extends prior work by incorporating sequence-level annotations,
allowing for the study of engagement beyond isolated turns to capture how
interest evolves over extended dialogues. We employ a rigorous annotation
process with over 100 second-language learners, using a comparison-based rating
approach inspired by reinforcement learning from human feedback (RLHF) to
improve agreement. We investigate whether large language models (LLMs) can
predict human interestingness judgments. We find that LLMs (7B/8B parameters)
fine-tuned on interestingness ratings outperform larger proprietary models like
GPT-4o, demonstrating the potential for specialised datasets to model
engagement in educational settings. Finally, we analyze how linguistic and
cognitive factors, such as concreteness, comprehensibility (readability), and
uptake, influence engagement in educational dialogues.