Evaluatie van LLM-prompts voor educatieve toepassingen

Samenvatting

Naarmate grote taalmodellen (LLM's) steeds vaker worden toegepast in onderwijscontexten, neemt de behoefte toe aan evidence-based methoden voor het ontwerpen en evalueren van LLM-prompts die gepersonaliseerde en pedagogisch afgestemde output genereren. Deze studie presenteert een generaliseerbare, systematische aanpak voor het evalueren van prompts, gedemonstreerd door een analyse van door een LLM gegenereerde vervolgvragen in een gestructureerde dialoogactiviteit. Zes promptsjablonen werden ontworpen en getest. De sjablonen bevatten gevestigde patronen voor prompt engineering, waarbij elke prompt verschillende pedagogische strategieën benadrukte. De promptsjablonen werden vergeleken via een tournament-stijl evaluatieraamwerk dat kan worden aangepast voor andere onderwijsapplicaties. Het toernooi maakte gebruik van het Glicko2-ratingsysteem, waarbij acht beoordelaars vraagparen evalueerden op drie dimensies: vorm, dialoogondersteuning en geschiktheid voor lerenden. De data waren afkomstig van 120 authentieke gebruikersinteracties uit drie verschillende onderwijsimplementaties. Resultaten toonden aan dat één enkele prompt gerelateerd aan strategisch lezen beter presteerde dan andere sjablonen, met winstkansen variërend van 81% tot 100% in paarsgewijze vergelijkingen. Deze prompt combineerde het 'persona'- en 'context manager'-patroon en was ontworpen om metacognitieve leerstrategieën, zoals zelfgestuurd leren, te ondersteunen. De methodologie demonstreert hoe onderwijsonderzoekers systematisch promptontwerpen kunnen evalueren en verbeteren, zodat men verder kan gaan dan ad-hoc prompt engineering naar evidence-based promptontwikkeling voor onderwijsapplicaties.

English

As large language models (LLMs) become increasingly common in educational applications, there is a growing need for evidence-based methods to design and evaluate LLM prompts that produce personalized and pedagogically aligned out-puts. This study presents a generalizable, systematic approach for evaluating prompts, demonstrated through an analysis of LLM-generated follow-up questions in a structured dialogue activity. Six prompt templates were designed and tested. The templates incorporated established prompt engineering patterns, with each prompt emphasizing distinct pedagogical strategies. The prompt templates were compared through a tournament-style evaluation framework that can be adapted for other educational applications. The tournament employed the Glicko2 rating system with eight judges evaluating question pairs across three dimensions: format, dialogue support, and appropriateness for learners. Data was sourced from 120 authentic user interactions across three distinct educational deployments. Results showed that a single prompt related to strategic reading out-performed other templates with win probabilities ranging from 81% to 100% in pairwise comparisons. This prompt combined persona and context manager pat-terns and was designed to support metacognitive learning strategies such as self-directed learning. The methodology showcases how educational technology re- searchers can systematically evaluate and improve prompt designs, moving beyond ad-hoc prompt engineering toward evidence-based prompt development for educational applications.

Evaluatie van LLM-prompts voor educatieve toepassingen

LLM Prompt Evaluation for Educational Applications

Samenvatting

Support