ChatPaper.aiChatPaper

Оценка промптов для больших языковых моделей в образовательных приложениях

LLM Prompt Evaluation for Educational Applications

January 22, 2026
Авторы: Langdon Holmes, Adam Coscia, Scott Crossley, Joon Suh Choi, Wesley Morris
cs.AI

Аннотация

По мере того как большие языковые модели (БЯМ) становятся все более распространенными в образовательных приложениях, возникает растущая потребность в научно обоснованных методах проектирования и оценки промптов БЯМ, которые генерируют персонализированные и педагогически выверенные результаты. Данное исследование представляет обобщаемый систематический подход к оценке промптов, продемонстрированный на примере анализа сгенерированных БЯМ уточняющих вопросов в рамках структурированной диалоговой активности. Было разработано и протестировано шесть шаблонов промптов. Шаблоны включали устоявшиеся паттерны инженерии промптов, причем каждый промпт делал акцент на различных педагогических стратегиях. Шаблоны промптов сравнивались в рамках турнирной системы оценки, которая может быть адаптирована для других образовательных приложений. В турнире использовалась рейтинговая система Glicko2, при этом восемь судей оценивали пары вопросов по трем параметрам: формат, поддержка диалога и уместность для учащихся. Данные были получены из 120 реальных пользовательских взаимодействий в трех различных образовательных средах. Результаты показали, что один промпт, связанный со стратегическим чтением, превзошел другие шаблоны с вероятностью выигрыша от 81% до 100% в парных сравнениях. Этот промпт сочетал паттерны "персона" и "менеджер контекста" и был разработан для поддержки метакогнитивных стратегий обучения, таких как самонаправляемое обучение. Представленная методология демонстрирует, как исследователи в области образовательных технологий могут систематически оценивать и улучшать дизайн промптов, переходя от ad-hoc инженерии промптов к их научно обоснованной разработке для образовательных приложений.
English
As large language models (LLMs) become increasingly common in educational applications, there is a growing need for evidence-based methods to design and evaluate LLM prompts that produce personalized and pedagogically aligned out-puts. This study presents a generalizable, systematic approach for evaluating prompts, demonstrated through an analysis of LLM-generated follow-up questions in a structured dialogue activity. Six prompt templates were designed and tested. The templates incorporated established prompt engineering patterns, with each prompt emphasizing distinct pedagogical strategies. The prompt templates were compared through a tournament-style evaluation framework that can be adapted for other educational applications. The tournament employed the Glicko2 rating system with eight judges evaluating question pairs across three dimensions: format, dialogue support, and appropriateness for learners. Data was sourced from 120 authentic user interactions across three distinct educational deployments. Results showed that a single prompt related to strategic reading out-performed other templates with win probabilities ranging from 81% to 100% in pairwise comparisons. This prompt combined persona and context manager pat-terns and was designed to support metacognitive learning strategies such as self-directed learning. The methodology showcases how educational technology re- searchers can systematically evaluate and improve prompt designs, moving beyond ad-hoc prompt engineering toward evidence-based prompt development for educational applications.
PDF11January 24, 2026