METIS: Система наставничества для вдумчивого исследования и поиска решений
METIS: Mentoring Engine for Thoughtful Inquiry & Solutions
January 19, 2026
Авторы: Abhinav Rajeev Kumar, Dhruv Trehan, Paras Chopra
cs.AI
Аннотация
Многие студенты не имеют доступа к наставничеству со стороны экспертов-исследователей. Мы исследуем, может ли ИИ-наставник помочь студентам бакалавриата пройти путь от идеи до научной статьи. Мы создали METIS — инструментально расширенного, учитывающего этапы работы ассистента с функцией поиска литературы, курируемыми руководствами, проверкой методологии и памятью. Мы оцениваем METIS в сравнении с GPT-5 и Claude Sonnet 4.5 на шести этапах написания работы, используя попарные предпочтения LLM-судей, рубрики в персонах студентов, короткие многоходовые сеансы обучения, а также проверки доказательной базы и соответствия требованиям. На 90 одноходовых промптах LLM-судьи предпочли METIS модели Claude Sonnet 4.5 в 71% случаев, а GPT-5 — в 54%. Оценки студентов (по критериям ясности/действенности/соответствия ограничениям; 90 промптов × 3 судьи) оказались выше на всех этапах. В многоходовых сессиях (пять сценариев на агента) METIS демонстрирует несколько более высокое итоговое качество, чем GPT-5. Улучшения сконцентрированы на этапах, основанных на работе с документами (D-F), что согласуется с маршрутизацией, учитывающей этап, и использованием заземляющей информации. К типичным ошибкам относятся преждевременное задействование инструментов, поверхностное заземление и occasionalная ошибочная классификация этапа.
English
Many students lack access to expert research mentorship. We ask whether an AI mentor can move undergraduates from an idea to a paper. We build METIS, a tool-augmented, stage-aware assistant with literature search, curated guidelines, methodology checks, and memory. We evaluate METIS against GPT-5 and Claude Sonnet 4.5 across six writing stages using LLM-as-a-judge pairwise preferences, student-persona rubrics, short multi-turn tutoring, and evidence/compliance checks. On 90 single-turn prompts, LLM judges preferred METIS to Claude Sonnet 4.5 in 71% and to GPT-5 in 54%. Student scores (clarity/actionability/constraint-fit; 90 prompts x 3 judges) are higher across stages. In multi-turn sessions (five scenarios/agent), METIS yields slightly higher final quality than GPT-5. Gains concentrate in document-grounded stages (D-F), consistent with stage-aware routing and groundings failure modes include premature tool routing, shallow grounding, and occasional stage misclassification.