METIS: 사려 깊은 탐구와 해결을 위한 멘토링 엔진
METIS: Mentoring Engine for Thoughtful Inquiry & Solutions
January 19, 2026
저자: Abhinav Rajeev Kumar, Dhruv Trehan, Paras Chopra
cs.AI
초록
많은 학생들이 전문적인 연구 멘토링의 혜택을 받지 못하고 있습니다. 본 연구는 AI 멘토가 학부생의 아이디어를 논문으로 발전시킬 수 있는지 탐구합니다. 우리는 문헌 검색, 체계화된 가이드라인, 방법론 점검, 메모리 기능을 갖춘 도구 기반 단계 인식 어시스턴트인 METIS를 구축했습니다. METIS를 GPT-5 및 Claude Sonnet 4.5와 대조하여 LLM 판단 기반 쌍별 선호도 평가, 학생 페르소나 루브릭, 단기 다중 터튜토리얼, 증거/준수 검증 등 6개 글쓰기 단계에 걸쳐 평가했습니다. 90개의 단일 터 프롬프트에서 LLM 판단자는 Claude Sonnet 4.5 대비 71%, GPT-5 대비 54%의 경우에서 METIS를 선호했습니다. 학생 평가 점수(명확성/실행 가능성/제약 조건 적합성; 90개 프롬프트 x 3명 판단자)는 모든 단계에서 더 높았습니다. 다중 터 세션(5개 시나리오/에이전트)에서 METIS는 GPT-5 대비 최종 결과물 품질이 약간 더 높았습니다. 성과 향상은 문서 기반 단계(D-F)에서 두드러졌으며, 이는 단계 인식 라우팅 및 근거 기반 접근의 효과와 일치합니다. 주요 실패 모드로는 조기 도구 라우팅, 피상적 근거, 간헐적 단계 오분류가 포함됩니다.
English
Many students lack access to expert research mentorship. We ask whether an AI mentor can move undergraduates from an idea to a paper. We build METIS, a tool-augmented, stage-aware assistant with literature search, curated guidelines, methodology checks, and memory. We evaluate METIS against GPT-5 and Claude Sonnet 4.5 across six writing stages using LLM-as-a-judge pairwise preferences, student-persona rubrics, short multi-turn tutoring, and evidence/compliance checks. On 90 single-turn prompts, LLM judges preferred METIS to Claude Sonnet 4.5 in 71% and to GPT-5 in 54%. Student scores (clarity/actionability/constraint-fit; 90 prompts x 3 judges) are higher across stages. In multi-turn sessions (five scenarios/agent), METIS yields slightly higher final quality than GPT-5. Gains concentrate in document-grounded stages (D-F), consistent with stage-aware routing and groundings failure modes include premature tool routing, shallow grounding, and occasional stage misclassification.