ChatPaper.aiChatPaper

교육용 애플리케이션을 위한 LLM 프롬프트 평가

LLM Prompt Evaluation for Educational Applications

January 22, 2026
저자: Langdon Holmes, Adam Coscia, Scott Crossley, Joon Suh Choi, Wesley Morris
cs.AI

초록

대규모 언어 모델(LLM)이 교육 애플리케이션에서 점점 더 보편화됨에 따라, 개인화되고 교육학적으로 정렬된 결과를 생성하는 LLM 프롬프트를 설계하고 평가하기 위한 근거 기반 방법론에 대한 필요성이 커지고 있습니다. 본 연구는 구조화된 대화 활동에서 LLM이 생성한 후속 질문 분석을 통해 입증된, 일반화 가능하고 체계적인 프롬프트 평가 접근법을 제시합니다. 6개의 프롬프트 템플릿을 설계하고 테스트하였으며, 이 템플릿들은 확립된 프롬프트 엔지니어링 패턴을 통합하고 각각 뚜렷한 교육 전략을 강조하였습니다. 프롬프트 템플릿은 다른 교육 애플리케이션에도 적용 가능한 토너먼트 방식의 평가 프레임워크를 통해 비교되었습니다. 토너먼트는 Glicko2 등급 시스템을 활용하여 8명의 평가자가 형식, 대화 지원, 학습자 적합성이라는 세 가지 차원에서 질문 쌍을 평가했습니다. 데이터는 세 가지 서로 다른 교육 배포 환경에서 수집된 120개의 실제 사용자 상호작용에서 도출되었습니다. 결과에 따르면, 전략적 읽기와 관련된 단일 프롬프트가 다른 템플릿들을 능가하였으며, pairwise 비교에서 81%에서 100%에 이르는 승률을 기록했습니다. 이 프롬프트는 페르소나와 컨텍스트 관리자 패턴을 결합했으며, 자기 주도적 학습과 같은 메타인지 학습 전략을 지원하도록 설계되었습니다. 본 방법론은 교육 기술 연구자들이 임시적인 프롬프트 엔지니어링을 넘어 교육 애플리케이션을 위한 근거 기반 프롬프트 개발로 나아가며 프롬프트 설계를 체계적으로 평가하고 개선할 수 있는 방법을 보여줍니다.
English
As large language models (LLMs) become increasingly common in educational applications, there is a growing need for evidence-based methods to design and evaluate LLM prompts that produce personalized and pedagogically aligned out-puts. This study presents a generalizable, systematic approach for evaluating prompts, demonstrated through an analysis of LLM-generated follow-up questions in a structured dialogue activity. Six prompt templates were designed and tested. The templates incorporated established prompt engineering patterns, with each prompt emphasizing distinct pedagogical strategies. The prompt templates were compared through a tournament-style evaluation framework that can be adapted for other educational applications. The tournament employed the Glicko2 rating system with eight judges evaluating question pairs across three dimensions: format, dialogue support, and appropriateness for learners. Data was sourced from 120 authentic user interactions across three distinct educational deployments. Results showed that a single prompt related to strategic reading out-performed other templates with win probabilities ranging from 81% to 100% in pairwise comparisons. This prompt combined persona and context manager pat-terns and was designed to support metacognitive learning strategies such as self-directed learning. The methodology showcases how educational technology re- searchers can systematically evaluate and improve prompt designs, moving beyond ad-hoc prompt engineering toward evidence-based prompt development for educational applications.
PDF11January 24, 2026