ChatPaper.aiChatPaper

IntrEx: 教育対話におけるエンゲージメントモデリングのためのデータセット

IntrEx: A Dataset for Modeling Engagement in Educational Conversations

September 8, 2025
著者: Xingwei Tan, Mahathi Parvatham, Chiara Gambi, Gabriele Pergola
cs.AI

要旨

第二言語習得において、学習者の関与と動機付けは極めて重要であるが、教育会話における学習者の興味を維持することは依然として課題となっている。これまでの研究では、教育テキストを興味深くする要素が探求されてきたが、会話における関与を促進する言語的特徴についてはまだほとんど知られていない。このギャップを埋めるため、我々は教師と生徒の相互作用における興味深さと期待される興味深さを注釈した初の大規模データセットであるIntrExを紹介する。IntrExはTeacher-Student Chatroom Corpus (TSCC)を基盤として構築され、シーケンスレベルの注釈を組み込むことで、孤立したターンを超えた関与の研究を可能にし、長い対話の中で興味がどのように変化するかを捉えることを目指している。我々は100人以上の第二言語学習者を対象とした厳格な注釈プロセスを採用し、人間のフィードバックからの強化学習(RLHF)に着想を得た比較ベースの評価アプローチを用いて、合意率の向上を図った。また、大規模言語モデル(LLM)が人間の興味深さの判断を予測できるかどうかを調査した。その結果、興味深さの評価に基づいてファインチューニングされたLLM(7B/8Bパラメータ)は、GPT-4oのような大規模なプロプライエタリモデルを上回り、教育現場における関与をモデル化するための専門的なデータセットの可能性を示した。最後に、具体性、理解しやすさ(読みやすさ)、取り込みといった言語的・認知的要因が、教育対話における関与にどのように影響するかを分析した。
English
Engagement and motivation are crucial for second-language acquisition, yet maintaining learner interest in educational conversations remains a challenge. While prior research has explored what makes educational texts interesting, still little is known about the linguistic features that drive engagement in conversations. To address this gap, we introduce IntrEx, the first large dataset annotated for interestingness and expected interestingness in teacher-student interactions. Built upon the Teacher-Student Chatroom Corpus (TSCC), IntrEx extends prior work by incorporating sequence-level annotations, allowing for the study of engagement beyond isolated turns to capture how interest evolves over extended dialogues. We employ a rigorous annotation process with over 100 second-language learners, using a comparison-based rating approach inspired by reinforcement learning from human feedback (RLHF) to improve agreement. We investigate whether large language models (LLMs) can predict human interestingness judgments. We find that LLMs (7B/8B parameters) fine-tuned on interestingness ratings outperform larger proprietary models like GPT-4o, demonstrating the potential for specialised datasets to model engagement in educational settings. Finally, we analyze how linguistic and cognitive factors, such as concreteness, comprehensibility (readability), and uptake, influence engagement in educational dialogues.
PDF242September 15, 2025