METIS: Motore di Mentoring per Indagini e Soluzioni Riflessive

Abstract

Molti studenti non hanno accesso a una mentorship esperta nella ricerca. Ci chiediamo se un mentore IA possa guidare gli studenti universitari da un'idea alla stesura di un articolo. Abbiamo sviluppato METIS, un assistente potenziato da strumenti e consapevole delle fasi di lavoro, dotato di ricerca letteraria, linee guida curate, controlli metodologici e memoria. Valutiamo METIS confrontandolo con GPT-5 e Claude Sonnet 4.5 attraverso sei fasi di scrittura, utilizzando preferenze comparative con LLM come giudice, rubriche con personae studentesche, brevi sessioni di tutoraggio multi-turn e controlli di evidenza/conformità. Su 90 prompt a turno singolo, i giudici LLM hanno preferito METIS a Claude Sonnet 4.5 nel 71% dei casi e a GPT-5 nel 54%. I punteggi degli studenti (chiarezza/azione praticabilità/aderenza ai vincoli; 90 prompt x 3 giudici) sono più alti in tutte le fasi. Nelle sessioni multi-turno (cinque scenari/agente), METIS produce una qualità finale leggermente superiore a GPT-5. I vantaggi si concentrano nelle fasi basate sui documenti (D-F), coerentemente con l'instradamento consapevole della fase e i grounding; le modalità di fallimento includono instradamento prematuro agli strumenti, grounding superficiale e occasionale errata classificazione della fase.

English

Many students lack access to expert research mentorship. We ask whether an AI mentor can move undergraduates from an idea to a paper. We build METIS, a tool-augmented, stage-aware assistant with literature search, curated guidelines, methodology checks, and memory. We evaluate METIS against GPT-5 and Claude Sonnet 4.5 across six writing stages using LLM-as-a-judge pairwise preferences, student-persona rubrics, short multi-turn tutoring, and evidence/compliance checks. On 90 single-turn prompts, LLM judges preferred METIS to Claude Sonnet 4.5 in 71% and to GPT-5 in 54%. Student scores (clarity/actionability/constraint-fit; 90 prompts x 3 judges) are higher across stages. In multi-turn sessions (five scenarios/agent), METIS yields slightly higher final quality than GPT-5. Gains concentrate in document-grounded stages (D-F), consistent with stage-aware routing and groundings failure modes include premature tool routing, shallow grounding, and occasional stage misclassification.

METIS: Motore di Mentoring per Indagini e Soluzioni Riflessive

METIS: Mentoring Engine for Thoughtful Inquiry & Solutions

Abstract

Support