ChatPaper.aiChatPaper

METIS: 思索的探求と解決のためのメンタリングエンジン

METIS: Mentoring Engine for Thoughtful Inquiry & Solutions

January 19, 2026
著者: Abhinav Rajeev Kumar, Dhruv Trehan, Paras Chopra
cs.AI

要旨

多くの学生は専門的な研究指導へのアクセスが不足している。本稿では、AIメンターが学部生をアイデアから論文執筆まで導けるかどうかを検討する。我々は文献検索、精選されたガイドライン、方法論チェック、記憶機能を備えたツール拡張型の段階認識アシスタントMETISを構築した。METISをGPT-5およびClaude Sonnet 4.5と、LLM審判を用いたペアワイズ選好評価、学生ペルソナに基づくルーブリック評価、短いマルチターン指導セッション、証拠/準拠チェックの観点から論文執筆6段階で比較評価した。単一ターンプロンプト90件では、LLM審判は71%でClaude Sonnet 4.5より、54%でGPT-5よりMETISを選好した。学生評価(明確性/実現可能性/制約適合性、90プロンプト×3審判)は全段階で高かった。マルチターンセッション(5シナリオ/エージェント)では、METISはGPT-5より最終成果物の品質がわずかに高かった。利得は文書に基づく段階(D-F)に集中し、これは段階認識型ルーティングと接地の有効性と一致する。失敗モードには、時期尚早なツール起動、浅い接地、および散発的な段階誤分類が含まれる。
English
Many students lack access to expert research mentorship. We ask whether an AI mentor can move undergraduates from an idea to a paper. We build METIS, a tool-augmented, stage-aware assistant with literature search, curated guidelines, methodology checks, and memory. We evaluate METIS against GPT-5 and Claude Sonnet 4.5 across six writing stages using LLM-as-a-judge pairwise preferences, student-persona rubrics, short multi-turn tutoring, and evidence/compliance checks. On 90 single-turn prompts, LLM judges preferred METIS to Claude Sonnet 4.5 in 71% and to GPT-5 in 54%. Student scores (clarity/actionability/constraint-fit; 90 prompts x 3 judges) are higher across stages. In multi-turn sessions (five scenarios/agent), METIS yields slightly higher final quality than GPT-5. Gains concentrate in document-grounded stages (D-F), consistent with stage-aware routing and groundings failure modes include premature tool routing, shallow grounding, and occasional stage misclassification.
PDF11January 22, 2026