ChatPaper.aiChatPaper

Bewertung von LLM-Prompts für Bildungsanwendungen

LLM Prompt Evaluation for Educational Applications

January 22, 2026
papers.authors: Langdon Holmes, Adam Coscia, Scott Crossley, Joon Suh Choi, Wesley Morris
cs.AI

papers.abstract

Da große Sprachmodelle (LLMs) zunehmend in Bildungsanwendungen verbreitet sind, besteht ein wachsender Bedarf an evidenzbasierten Methoden zur Gestaltung und Bewertung von LLM-Prompts, die personalisierte und pädagogisch abgestimmte Ergebnisse liefern. Diese Studie stellt einen generalisierbaren, systematischen Ansatz zur Bewertung von Prompts vor, demonstriert durch eine Analyse von LLM-generierten Nachfragen in einer strukturierten Dialogaktivität. Sechs Prompt-Vorlagen wurden entworfen und getestet. Die Vorlagen integrierten etablierte Prompt-Engineering-Muster, wobei jeder Prompt unterschiedliche pädagogische Strategien betonte. Die Prompt-Vorlagen wurden durch einen turnierbasierten Bewertungsrahmen verglichen, der für andere Bildungsanwendungen adaptiert werden kann. Das Turnier verwendete das Glicko2-Bewertungssystem, wobei acht Gutachter Fragepaare in drei Dimensionen bewerteten: Format, Dialogunterstützung und Eignung für Lernende. Die Daten stammten aus 120 authentischen Nutzerinteraktionen über drei verschiedene Bildungseinsätze hinweg. Die Ergebnisse zeigten, dass ein einzelner Prompt zum strategischen Lesen andere Vorlagen übertraf, mit Gewinnwahrscheinlichkeiten zwischen 81 % und 100 % in paarweisen Vergleichen. Dieser Prompt kombinierte Personen- und Kontextmanager-Muster und war darauf ausgelegt, metakognitive Lernstrategien wie selbstgesteuertes Lernen zu unterstützen. Die Methodik veranschaulicht, wie Bildungstechnologie-Forscher Prompt-Designs systematisch bewerten und verbessern können, um sich von ad-hoc Prompt-Engineering hin zu evidenzbasierter Prompt-Entwicklung für Bildungsanwendungen zu bewegen.
English
As large language models (LLMs) become increasingly common in educational applications, there is a growing need for evidence-based methods to design and evaluate LLM prompts that produce personalized and pedagogically aligned out-puts. This study presents a generalizable, systematic approach for evaluating prompts, demonstrated through an analysis of LLM-generated follow-up questions in a structured dialogue activity. Six prompt templates were designed and tested. The templates incorporated established prompt engineering patterns, with each prompt emphasizing distinct pedagogical strategies. The prompt templates were compared through a tournament-style evaluation framework that can be adapted for other educational applications. The tournament employed the Glicko2 rating system with eight judges evaluating question pairs across three dimensions: format, dialogue support, and appropriateness for learners. Data was sourced from 120 authentic user interactions across three distinct educational deployments. Results showed that a single prompt related to strategic reading out-performed other templates with win probabilities ranging from 81% to 100% in pairwise comparisons. This prompt combined persona and context manager pat-terns and was designed to support metacognitive learning strategies such as self-directed learning. The methodology showcases how educational technology re- searchers can systematically evaluate and improve prompt designs, moving beyond ad-hoc prompt engineering toward evidence-based prompt development for educational applications.
PDF11January 24, 2026