教育アプリケーションにおけるLLMプロンプト評価
LLM Prompt Evaluation for Educational Applications
January 22, 2026
著者: Langdon Holmes, Adam Coscia, Scott Crossley, Joon Suh Choi, Wesley Morris
cs.AI
要旨
大規模言語モデル(LLM)が教育応用で一般的になるにつれ、個別化され教育的に整合性の高い出力を生成するLLMプロンプトを設計・評価するための実証に基づく手法の必要性が高まっている。本研究は、構造化対話活動におけるLLM生成のフォローアップ質問分析を通じて実証された、プロンプト評価の汎用的かつ体系的なアプローチを提案する。6種類のプロンプトテンプレートを設計・検証し、各テンプレートは確立されたプロンプトエンジニアリングパターンを組み込み、異なる教育戦略を強調した。プロンプトテンプレートは、他の教育応用へ適応可能なトーナメント形式の評価フレームワークを通じて比較された。トーナメントではGlicko2評価システムを採用し、8名の評価者が質問ペアを形式、対話支援、学習者への適切性の3次元で評価した。データは3つの異なる教育展開における120件の実際のユーザーインタラクションから収集された。結果、戦略的読解に関連する単一のプロンプトが他テンプレートを有意に上回り、ペア比較での勝利確率は81%から100%に達した。このプロンプトはペルソナとコンテキスト管理パターンを組み合わせ、自己主導型学習などのメタ認知学習戦略を支援するよう設計されていた。本手法は、教育技術研究者がアドホックなプロンプトエンジニアリングを超え、教育応用のための実証に基づくプロンプト開発に向けて、プロンプト設計を体系的に評価・改善する方法を示している。
English
As large language models (LLMs) become increasingly common in educational applications, there is a growing need for evidence-based methods to design and evaluate LLM prompts that produce personalized and pedagogically aligned out-puts. This study presents a generalizable, systematic approach for evaluating prompts, demonstrated through an analysis of LLM-generated follow-up questions in a structured dialogue activity. Six prompt templates were designed and tested. The templates incorporated established prompt engineering patterns, with each prompt emphasizing distinct pedagogical strategies. The prompt templates were compared through a tournament-style evaluation framework that can be adapted for other educational applications. The tournament employed the Glicko2 rating system with eight judges evaluating question pairs across three dimensions: format, dialogue support, and appropriateness for learners. Data was sourced from 120 authentic user interactions across three distinct educational deployments. Results showed that a single prompt related to strategic reading out-performed other templates with win probabilities ranging from 81% to 100% in pairwise comparisons. This prompt combined persona and context manager pat-terns and was designed to support metacognitive learning strategies such as self-directed learning. The methodology showcases how educational technology re- searchers can systematically evaluate and improve prompt designs, moving beyond ad-hoc prompt engineering toward evidence-based prompt development for educational applications.