Valutazione dei Prompt per Modelli Linguistici di Grandi Dimensioni in Applicazioni Educative

Abstract

Man mano che i modelli linguistici di grandi dimensioni (LLM) diventano sempre più comuni nelle applicazioni educative, cresce l'esigenza di metodi basati su evidenze per progettare e valutare i prompt per LLM che producano output personalizzati e allineati da un punto di vista pedagogico. Questo studio presenta un approccio sistematico e generalizzabile per valutare i prompt, dimostrato attraverso un'analisi delle domande di follow-up generate da LLM in un'attività di dialogo strutturato. Sono stati progettati e testati sei modelli di prompt. I modelli incorporavano pattern consolidati di prompt engineering, con ciascun prompt che enfatizzava distinte strategie pedagogiche. I modelli di prompt sono stati confrontati attraverso una struttura di valutazione di tipo torneo che può essere adattata ad altre applicazioni educative. Il torneo ha utilizzato il sistema di valutazione Glicko2 con otto giudici che hanno valutato coppie di domande secondo tre dimensioni: formato, supporto al dialogo e appropriatezza per i discenti. I dati sono stati raccolti da 120 interazioni autentiche degli utenti in tre diversi contesti educativi. I risultati hanno mostrato che un singolo prompt relativo alla lettura strategica ha superato gli altri modelli, con probabilità di vittoria che variavano dal 81% al 100% nei confronti a coppie. Questo prompt combinava i pattern del "persona" e del "context manager" ed era progettato per supportare strategie di apprendimento metacognitive come l'apprendimento autodiretto. La metodologia illustra come i ricercatori di tecnologia educativa possano valutare e migliorare sistematicamente i progetti dei prompt, passando da un prompt engineering ad hoc a uno sviluppo dei prompt basato su evidenze per applicazioni educative.

English

As large language models (LLMs) become increasingly common in educational applications, there is a growing need for evidence-based methods to design and evaluate LLM prompts that produce personalized and pedagogically aligned out-puts. This study presents a generalizable, systematic approach for evaluating prompts, demonstrated through an analysis of LLM-generated follow-up questions in a structured dialogue activity. Six prompt templates were designed and tested. The templates incorporated established prompt engineering patterns, with each prompt emphasizing distinct pedagogical strategies. The prompt templates were compared through a tournament-style evaluation framework that can be adapted for other educational applications. The tournament employed the Glicko2 rating system with eight judges evaluating question pairs across three dimensions: format, dialogue support, and appropriateness for learners. Data was sourced from 120 authentic user interactions across three distinct educational deployments. Results showed that a single prompt related to strategic reading out-performed other templates with win probabilities ranging from 81% to 100% in pairwise comparisons. This prompt combined persona and context manager pat-terns and was designed to support metacognitive learning strategies such as self-directed learning. The methodology showcases how educational technology re- searchers can systematically evaluate and improve prompt designs, moving beyond ad-hoc prompt engineering toward evidence-based prompt development for educational applications.

Valutazione dei Prompt per Modelli Linguistici di Grandi Dimensioni in Applicazioni Educative

LLM Prompt Evaluation for Educational Applications

Abstract

Support