METIS : Moteur de Mentorat pour l'Investigation et les Solutions Réfléchies
METIS: Mentoring Engine for Thoughtful Inquiry & Solutions
January 19, 2026
papers.authors: Abhinav Rajeev Kumar, Dhruv Trehan, Paras Chopra
cs.AI
papers.abstract
De nombreux étudiants manquent d'accès à un mentorat de recherche expert. Nous nous demandons si un mentor IA peut guider des étudiants de premier cycle d'une idée à la publication d'un article. Nous développons METIS, un assistant conscient des étapes de rédaction et augmenté par des outils, intégrant la recherche documentaire, des directives organisées, des vérifications méthodologiques et une mémoire. Nous évaluons METIS contre GPT-5 et Claude Sonnet 4.5 sur six étapes de rédaction en utilisant des préférences par paires évaluées par un LLM-juge, des grilles d'évaluation basées sur un profil étudiant, des sessions de tutorat multi-tours courtes et des vérifications de conformité/pertinence des preuves. Sur 90 requêtes en un seul tour, les LLM-juges ont préféré METIS à Claude Sonnet 4.5 dans 71% des cas et à GPT-5 dans 54% des cas. Les scores attribués selon le profil étudiant (clarté/opérationnalité/adéquation aux contraintes ; 90 requêtes x 3 juges) sont supérieurs pour METIS à travers toutes les étapes. Dans des sessions multi-tours (cinq scénarios/agent), METIS produit une qualité finale légèrement supérieure à celle de GPT-5. Les gains se concentrent sur les étapes nécessitant une base documentaire (D-F), ce qui est cohérent avec l'aiguillage conscient des étapes et l'ancrage dans les documents. Les modes d'échec incluent un déclenchement prématuré des outils, un ancrage superficiel et une mauvaise classification occasionnelle de l'étape.
English
Many students lack access to expert research mentorship. We ask whether an AI mentor can move undergraduates from an idea to a paper. We build METIS, a tool-augmented, stage-aware assistant with literature search, curated guidelines, methodology checks, and memory. We evaluate METIS against GPT-5 and Claude Sonnet 4.5 across six writing stages using LLM-as-a-judge pairwise preferences, student-persona rubrics, short multi-turn tutoring, and evidence/compliance checks. On 90 single-turn prompts, LLM judges preferred METIS to Claude Sonnet 4.5 in 71% and to GPT-5 in 54%. Student scores (clarity/actionability/constraint-fit; 90 prompts x 3 judges) are higher across stages. In multi-turn sessions (five scenarios/agent), METIS yields slightly higher final quality than GPT-5. Gains concentrate in document-grounded stages (D-F), consistent with stage-aware routing and groundings failure modes include premature tool routing, shallow grounding, and occasional stage misclassification.