Evaluación de Prompts para Modelos de Lenguaje Grandes en Aplicaciones Educativas
LLM Prompt Evaluation for Educational Applications
January 22, 2026
Autores: Langdon Holmes, Adam Coscia, Scott Crossley, Joon Suh Choi, Wesley Morris
cs.AI
Resumen
A medida que los modelos de lenguaje grande (LLM) se vuelven cada vez más comunes en aplicaciones educativas, existe una creciente necesidad de métodos basados en evidencia para diseñar y evaluar prompts de LLM que produzcan resultados personalizados y pedagógicamente alineados. Este estudio presenta un enfoque sistemático y generalizable para evaluar prompts, demostrado a través de un análisis de preguntas de seguimiento generadas por LLM en una actividad de diálogo estructurado. Se diseñaron y probaron seis plantillas de prompts. Las plantillas incorporaron patrones establecidos de ingeniería de prompts, haciendo que cada una enfatizara estrategias pedagógicas distintas. Las plantillas de prompts se compararon mediante un marco de evaluación de estilo torneo que puede adaptarse para otras aplicaciones educativas. El torneo empleó el sistema de calificación Glicko2 con ocho jueces evaluando pares de preguntas en tres dimensiones: formato, apoyo al diálogo y adecuación para los estudiantes. Los datos se obtuvieron de 120 interacciones auténticas de usuarios en tres despliegues educativos distintos. Los resultados mostraron que un único prompt relacionado con la lectura estratégica superó a otras plantillas, con probabilidades de victoria que oscilaron entre el 81% y el 100% en comparaciones por pares. Este prompt combinaba patrones de persona y gestor de contexto y estaba diseñado para apoyar estrategias de aprendizaje metacognitivo, como el aprendizaje autodirigido. La metodología demuestra cómo los investigadores en tecnología educativa pueden evaluar y mejorar sistemáticamente los diseños de prompts, avanzando más allá de la ingeniería de prompts ad hoc hacia un desarrollo de prompts basado en evidencia para aplicaciones educativas.
English
As large language models (LLMs) become increasingly common in educational applications, there is a growing need for evidence-based methods to design and evaluate LLM prompts that produce personalized and pedagogically aligned out-puts. This study presents a generalizable, systematic approach for evaluating prompts, demonstrated through an analysis of LLM-generated follow-up questions in a structured dialogue activity. Six prompt templates were designed and tested. The templates incorporated established prompt engineering patterns, with each prompt emphasizing distinct pedagogical strategies. The prompt templates were compared through a tournament-style evaluation framework that can be adapted for other educational applications. The tournament employed the Glicko2 rating system with eight judges evaluating question pairs across three dimensions: format, dialogue support, and appropriateness for learners. Data was sourced from 120 authentic user interactions across three distinct educational deployments. Results showed that a single prompt related to strategic reading out-performed other templates with win probabilities ranging from 81% to 100% in pairwise comparisons. This prompt combined persona and context manager pat-terns and was designed to support metacognitive learning strategies such as self-directed learning. The methodology showcases how educational technology re- searchers can systematically evaluate and improve prompt designs, moving beyond ad-hoc prompt engineering toward evidence-based prompt development for educational applications.