METIS: Mentoring Engine for Thoughtful Inquiry & Solutions
METIS: Mentoring Engine for Thoughtful Inquiry & Solutions
January 19, 2026
papers.authors: Abhinav Rajeev Kumar, Dhruv Trehan, Paras Chopra
cs.AI
papers.abstract
Viele Studierende haben keinen Zugang zu fachkundiger Forschungsbetreuung. Wir untersuchen, ob ein KI-Mentor Studierende von einer Idee zu einer wissenschaftlichen Arbeit führen kann. Wir entwickeln METIS, einen werkzeuggestützten, phasenbewussten Assistenten mit Literaturrecherche, kuratierten Leitfäden, Methodenprüfungen und Gedächtnisfunktion. Wir evaluieren METIS im Vergleich zu GPT-5 und Claude Sonnet 4.5 über sechs Schreibphasen hinweg mittels paarweiser Präferenzen (LLM-as-a-judge), Bewertungsrastern aus Studentenperspektive, kurzen mehrschrittigen Tutoring-Sitzungen sowie Evidenz- und Konformitätsprüfungen. Bei 90 Einzelschritt-Anfragen zogen LLM-Bewerter METIS in 71 % der Fälle Claude Sonnet 4.5 und in 54 % GPT-5 vor. Die Bewertungen aus Studentenperspektive (Klarheit/Handlungsorientierung/Anforderungserfüllung; 90 Anfragen × 3 Bewerter) sind über alle Phasen hinweg höher. In mehrschrittigen Sitzungen (fünf Szenarien/Agent) erzielt METIS eine leicht höhere Endqualität als GPT-5. Die Verbesserungen konzentrieren sich auf dokumentenbasierte Phasen (D-F), was mit dem phasenbewussten Routing und der Verankerung konsistent ist. Zu den Fehlermodi gehören vorzeitiges Tool-Routing, oberflächliche Verankerung und gelegentliche Phasenfehlklassifizierung.
English
Many students lack access to expert research mentorship. We ask whether an AI mentor can move undergraduates from an idea to a paper. We build METIS, a tool-augmented, stage-aware assistant with literature search, curated guidelines, methodology checks, and memory. We evaluate METIS against GPT-5 and Claude Sonnet 4.5 across six writing stages using LLM-as-a-judge pairwise preferences, student-persona rubrics, short multi-turn tutoring, and evidence/compliance checks. On 90 single-turn prompts, LLM judges preferred METIS to Claude Sonnet 4.5 in 71% and to GPT-5 in 54%. Student scores (clarity/actionability/constraint-fit; 90 prompts x 3 judges) are higher across stages. In multi-turn sessions (five scenarios/agent), METIS yields slightly higher final quality than GPT-5. Gains concentrate in document-grounded stages (D-F), consistent with stage-aware routing and groundings failure modes include premature tool routing, shallow grounding, and occasional stage misclassification.