Avaliação de Prompts para Modelos de Linguagem de Grande Escala em Aplicações Educacionais

Resumo

À medida que os modelos de linguagem de grande porte (LLMs) se tornam cada vez mais comuns em aplicações educacionais, surge uma necessidade crescente de métodos baseados em evidências para projetar e avaliar prompts de LLM que produzam resultados personalizados e pedagogicamente alinhados. Este estudo apresenta uma abordagem sistemática e generalizável para avaliar prompts, demonstrada por meio de uma análise de perguntas de acompanhamento geradas por LLM em uma atividade de diálogo estruturado. Seis modelos de prompt foram projetados e testados. Os modelos incorporaram padrões estabelecidos de engenharia de prompts, com cada prompt enfatizando estratégias pedagógicas distintas. Os modelos de prompt foram comparados por meio de uma estrutura de avaliação em estilo de torneio que pode ser adaptada para outras aplicações educacionais. O torneio empregou o sistema de classificação Glicko2, com oito juízes avaliando pares de perguntas em três dimensões: formato, suporte ao diálogo e adequação para os aprendizes. Os dados foram obtidos de 120 interações autênticas de usuários em três implantações educacionais distintas. Os resultados mostraram que um único prompt relacionado à leitura estratégica superou outros modelos, com probabilidades de vitória variando de 81% a 100% em comparações pareadas. Este prompt combinou os padrões de persona e gerenciador de contexto e foi projetado para apoiar estratégias de aprendizagem metacognitivas, como a aprendizagem autodirigida. A metodologia demonstra como os pesquisadores em tecnologia educacional podem avaliar e melhorar sistematicamente os projetos de prompt, passando da engenharia de prompts ad hoc para o desenvolvimento de prompts baseado em evidências para aplicações educacionais.

English

As large language models (LLMs) become increasingly common in educational applications, there is a growing need for evidence-based methods to design and evaluate LLM prompts that produce personalized and pedagogically aligned out-puts. This study presents a generalizable, systematic approach for evaluating prompts, demonstrated through an analysis of LLM-generated follow-up questions in a structured dialogue activity. Six prompt templates were designed and tested. The templates incorporated established prompt engineering patterns, with each prompt emphasizing distinct pedagogical strategies. The prompt templates were compared through a tournament-style evaluation framework that can be adapted for other educational applications. The tournament employed the Glicko2 rating system with eight judges evaluating question pairs across three dimensions: format, dialogue support, and appropriateness for learners. Data was sourced from 120 authentic user interactions across three distinct educational deployments. Results showed that a single prompt related to strategic reading out-performed other templates with win probabilities ranging from 81% to 100% in pairwise comparisons. This prompt combined persona and context manager pat-terns and was designed to support metacognitive learning strategies such as self-directed learning. The methodology showcases how educational technology re- searchers can systematically evaluate and improve prompt designs, moving beyond ad-hoc prompt engineering toward evidence-based prompt development for educational applications.

Avaliação de Prompts para Modelos de Linguagem de Grande Escala em Aplicações Educacionais

LLM Prompt Evaluation for Educational Applications

Resumo

Support