IntrEx: Ein Datensatz zur Modellierung von Engagement in Bildungsgesprächen
IntrEx: A Dataset for Modeling Engagement in Educational Conversations
September 8, 2025
papers.authors: Xingwei Tan, Mahathi Parvatham, Chiara Gambi, Gabriele Pergola
cs.AI
papers.abstract
Engagement und Motivation sind entscheidend für den Zweitspracherwerb, doch die Aufrechterhaltung des Interesses der Lernenden in pädagogischen Gesprächen bleibt eine Herausforderung. Während frühere Forschungen untersucht haben, was pädagogische Texte interessant macht, ist noch wenig über die linguistischen Merkmale bekannt, die Engagement in Gesprächen fördern. Um diese Lücke zu schließen, stellen wir IntrEx vor, den ersten großen Datensatz, der für Interessantheit und erwartete Interessantheit in Lehrer-Schüler-Interaktionen annotiert ist. Basierend auf dem Teacher-Student Chatroom Corpus (TSCC) erweitert IntrEx frühere Arbeiten durch die Einbeziehung von Sequenz-Level-Annotationen, was die Untersuchung von Engagement über isolierte Äußerungen hinaus ermöglicht, um zu erfassen, wie sich Interesse in längeren Dialogen entwickelt. Wir verwenden einen rigorosen Annotationsprozess mit über 100 Zweitsprachlern und nutzen einen vergleichsbasierten Bewertungsansatz, inspiriert von Reinforcement Learning from Human Feedback (RLHF), um die Übereinstimmung zu verbessern. Wir untersuchen, ob große Sprachmodelle (LLMs) menschliche Bewertungen von Interessantheit vorhersagen können. Wir stellen fest, dass LLMs (7B/8B Parameter), die auf Interessantheitsbewertungen feinabgestimmt sind, größere proprietäre Modelle wie GPT-4o übertreffen, was das Potenzial spezialisierter Datensätze zur Modellierung von Engagement in Bildungskontexten demonstriert. Schließlich analysieren wir, wie linguistische und kognitive Faktoren wie Konkretheit, Verständlichkeit (Lesbarkeit) und Aufnahme das Engagement in pädagogischen Dialogen beeinflussen.
English
Engagement and motivation are crucial for second-language acquisition, yet
maintaining learner interest in educational conversations remains a challenge.
While prior research has explored what makes educational texts interesting,
still little is known about the linguistic features that drive engagement in
conversations. To address this gap, we introduce IntrEx, the first large
dataset annotated for interestingness and expected interestingness in
teacher-student interactions. Built upon the Teacher-Student Chatroom Corpus
(TSCC), IntrEx extends prior work by incorporating sequence-level annotations,
allowing for the study of engagement beyond isolated turns to capture how
interest evolves over extended dialogues. We employ a rigorous annotation
process with over 100 second-language learners, using a comparison-based rating
approach inspired by reinforcement learning from human feedback (RLHF) to
improve agreement. We investigate whether large language models (LLMs) can
predict human interestingness judgments. We find that LLMs (7B/8B parameters)
fine-tuned on interestingness ratings outperform larger proprietary models like
GPT-4o, demonstrating the potential for specialised datasets to model
engagement in educational settings. Finally, we analyze how linguistic and
cognitive factors, such as concreteness, comprehensibility (readability), and
uptake, influence engagement in educational dialogues.