ChatPaper.aiChatPaper

IntrEx: Um Conjunto de Dados para Modelagem de Engajamento em Conversas Educacionais

IntrEx: A Dataset for Modeling Engagement in Educational Conversations

September 8, 2025
Autores: Xingwei Tan, Mahathi Parvatham, Chiara Gambi, Gabriele Pergola
cs.AI

Resumo

Engajamento e motivação são cruciais para a aquisição de uma segunda língua, mas manter o interesse dos alunos em conversas educacionais continua sendo um desafio. Embora pesquisas anteriores tenham explorado o que torna textos educacionais interessantes, ainda se sabe pouco sobre as características linguísticas que impulsionam o engajamento em conversas. Para abordar essa lacuna, apresentamos o IntrEx, o primeiro grande conjunto de dados anotado para interesse e expectativa de interesse em interações professor-aluno. Baseado no Teacher-Student Chatroom Corpus (TSCC), o IntrEx amplia trabalhos anteriores ao incorporar anotações em nível de sequência, permitindo o estudo do engajamento além de turnos isolados, capturando como o interesse evolui ao longo de diálogos extensos. Empregamos um rigoroso processo de anotação com mais de 100 alunos de segunda língua, utilizando uma abordagem de avaliação comparativa inspirada no aprendizado por reforço com feedback humano (RLHF) para melhorar a concordância. Investigamos se modelos de linguagem de grande escala (LLMs) podem prever julgamentos humanos de interesse. Descobrimos que LLMs (7B/8B parâmetros) ajustados com base em avaliações de interesse superam modelos proprietários maiores, como o GPT-4o, demonstrando o potencial de conjuntos de dados especializados para modelar o engajamento em contextos educacionais. Por fim, analisamos como fatores linguísticos e cognitivos, como concretude, compreensibilidade (legibilidade) e assimilação, influenciam o engajamento em diálogos educacionais.
English
Engagement and motivation are crucial for second-language acquisition, yet maintaining learner interest in educational conversations remains a challenge. While prior research has explored what makes educational texts interesting, still little is known about the linguistic features that drive engagement in conversations. To address this gap, we introduce IntrEx, the first large dataset annotated for interestingness and expected interestingness in teacher-student interactions. Built upon the Teacher-Student Chatroom Corpus (TSCC), IntrEx extends prior work by incorporating sequence-level annotations, allowing for the study of engagement beyond isolated turns to capture how interest evolves over extended dialogues. We employ a rigorous annotation process with over 100 second-language learners, using a comparison-based rating approach inspired by reinforcement learning from human feedback (RLHF) to improve agreement. We investigate whether large language models (LLMs) can predict human interestingness judgments. We find that LLMs (7B/8B parameters) fine-tuned on interestingness ratings outperform larger proprietary models like GPT-4o, demonstrating the potential for specialised datasets to model engagement in educational settings. Finally, we analyze how linguistic and cognitive factors, such as concreteness, comprehensibility (readability), and uptake, influence engagement in educational dialogues.
PDF242September 15, 2025