ChatPaper.aiChatPaper

Évaluation des invites de modèles de langage élargis pour les applications éducatives

LLM Prompt Evaluation for Educational Applications

January 22, 2026
papers.authors: Langdon Holmes, Adam Coscia, Scott Crossley, Joon Suh Choi, Wesley Morris
cs.AI

papers.abstract

Alors que les modèles de langage de grande taille (LLM) deviennent de plus en plus courants dans les applications éducatives, il est nécessaire de développer des méthodes fondées sur des preuves pour concevoir et évaluer les prompts qui produisent des résultats personnalisés et pédagogiquement alignés. Cette étude présente une approche systématique et généralisable pour évaluer les prompts, démontrée à travers l'analyse de questions de suivi générées par un LLM dans le cadre d'une activité de dialogue structuré. Six modèles de prompts ont été conçus et testés. Ces modèles intégraient des patrons établis d'ingénierie des prompts, chaque prompt mettant l'accent sur des stratégies pédagogiques distinctes. Les modèles de prompts ont été comparés grâce à un cadre d'évaluation de type tournoi, adaptable à d'autres applications éducatives. Le tournoi a utilisé le système de classement Glicko2, avec huit juges évaluant des paires de questions selon trois dimensions : le format, le soutien au dialogue et l'adéquation pour les apprenants. Les données provenaient de 120 interactions utilisateur authentiques issues de trois déploiements éducatifs distincts. Les résultats ont montré qu'un prompt unique, lié à la lecture stratégique, surperformait les autres modèles avec des probabilités de victoire allant de 81 % à 100 % dans les comparaisons par paires. Ce prompt combinait les patrons de persona et de gestionnaire de contexte et était conçu pour soutenir des stratégies d'apprentissage métacognitives telles que l'apprentissage auto-dirigé. La méthodologie illustre comment les chercheurs en technologies éducatives peuvent évaluer et améliorer systématiquement la conception des prompts, dépassant ainsi l'ingénierie des prompts ad hoc vers un développement fondé sur des preuves pour les applications éducatives.
English
As large language models (LLMs) become increasingly common in educational applications, there is a growing need for evidence-based methods to design and evaluate LLM prompts that produce personalized and pedagogically aligned out-puts. This study presents a generalizable, systematic approach for evaluating prompts, demonstrated through an analysis of LLM-generated follow-up questions in a structured dialogue activity. Six prompt templates were designed and tested. The templates incorporated established prompt engineering patterns, with each prompt emphasizing distinct pedagogical strategies. The prompt templates were compared through a tournament-style evaluation framework that can be adapted for other educational applications. The tournament employed the Glicko2 rating system with eight judges evaluating question pairs across three dimensions: format, dialogue support, and appropriateness for learners. Data was sourced from 120 authentic user interactions across three distinct educational deployments. Results showed that a single prompt related to strategic reading out-performed other templates with win probabilities ranging from 81% to 100% in pairwise comparisons. This prompt combined persona and context manager pat-terns and was designed to support metacognitive learning strategies such as self-directed learning. The methodology showcases how educational technology re- searchers can systematically evaluate and improve prompt designs, moving beyond ad-hoc prompt engineering toward evidence-based prompt development for educational applications.
PDF11January 24, 2026