METIS: Motor de Mentoria para Indagação e Soluções Reflexivas
METIS: Mentoring Engine for Thoughtful Inquiry & Solutions
January 19, 2026
Autores: Abhinav Rajeev Kumar, Dhruv Trehan, Paras Chopra
cs.AI
Resumo
Muitos estudantes não têm acesso a mentoria especializada em pesquisa. Investigamos se um mentor de IA pode guiar alunos de graduação desde uma ideia até a redação de um artigo. Desenvolvemos o METIS, um assistente com ferramentas, consciente das etapas, que oferece busca de literatura, diretrizes curadas, verificações metodológicas e memória. Avaliamos o METIS em comparação com o GPT-5 e o Claude Sonnet 4.5 em seis etapas de escrita, utilizando preferências pareadas com LLM-como-juiz, rubricas de persona de estudante, tutoria curta de múltiplos turnos e verificações de evidência/conformidade. Em 90 prompts de turno único, os juízes LLM preferiram o METIS ao Claude Sonnet 4.5 em 71% dos casos e ao GPT-5 em 54%. As pontuações dos estudantes (clareza/acionabilidade/adequação às restrições; 90 prompts x 3 juízes) são mais altas em todas as etapas. Em sessões de múltiplos turnos (cinco cenários/agente), o METIS resulta numa qualidade final ligeiramente superior à do GPT-5. Os ganhos concentram-se nas etapas baseadas em documentos (D-F), consistente com o roteamento consciente da etapa e o uso de fundamentação. Os modos de falha incluem roteamento prematuro de ferramentas, fundamentação superficial e ocasionais classificações incorretas da etapa.
English
Many students lack access to expert research mentorship. We ask whether an AI mentor can move undergraduates from an idea to a paper. We build METIS, a tool-augmented, stage-aware assistant with literature search, curated guidelines, methodology checks, and memory. We evaluate METIS against GPT-5 and Claude Sonnet 4.5 across six writing stages using LLM-as-a-judge pairwise preferences, student-persona rubrics, short multi-turn tutoring, and evidence/compliance checks. On 90 single-turn prompts, LLM judges preferred METIS to Claude Sonnet 4.5 in 71% and to GPT-5 in 54%. Student scores (clarity/actionability/constraint-fit; 90 prompts x 3 judges) are higher across stages. In multi-turn sessions (five scenarios/agent), METIS yields slightly higher final quality than GPT-5. Gains concentrate in document-grounded stages (D-F), consistent with stage-aware routing and groundings failure modes include premature tool routing, shallow grounding, and occasional stage misclassification.