METIS: Motor de Mentoría para la Indagación y Soluciones Reflexivas

Resumen

Muchos estudiantes carecen de acceso a mentores expertos en investigación. Nos preguntamos si un mentor de IA puede guiar a estudiantes universitarios desde una idea hasta un artículo científico. Desarrollamos METIS, un asistente aumentado con herramientas y consciente de las etapas del proceso, que incluye búsqueda bibliográfica, pautas curadas, verificaciones metodológicas y memoria. Evaluamos METIS frente a GPT-5 y Claude Sonnet 4.5 en seis etapas de escritura, utilizando preferencias por pares con LLM-como-juez, rúbricas con personajes estudiantiles, tutorías multiturno breves y verificaciones de evidencia/cumplimiento. En 90 indicaciones de un solo turno, los jueces LLM prefirieron a METIS sobre Claude Sonnet 4.5 en un 71% y sobre GPT-5 en un 54%. Las puntuaciones de los estudiantes (claridad/accionabilidad/adecuación a restricciones; 90 indicaciones x 3 jueces) son más altas en todas las etapas. En sesiones multiturno (cinco escenarios/agente), METIS produce una calidad final ligeramente superior a la de GPT-5. Las mejoras se concentran en las etapas basadas en documentos (D-F), lo que es coherente con el enrutamiento consciente de la etapa y el uso de fundamentos. Los modos de fallo incluyen enrutamiento prematuro de herramientas, fundamentación superficial y ocasional clasificación errónea de la etapa.

English

Many students lack access to expert research mentorship. We ask whether an AI mentor can move undergraduates from an idea to a paper. We build METIS, a tool-augmented, stage-aware assistant with literature search, curated guidelines, methodology checks, and memory. We evaluate METIS against GPT-5 and Claude Sonnet 4.5 across six writing stages using LLM-as-a-judge pairwise preferences, student-persona rubrics, short multi-turn tutoring, and evidence/compliance checks. On 90 single-turn prompts, LLM judges preferred METIS to Claude Sonnet 4.5 in 71% and to GPT-5 in 54%. Student scores (clarity/actionability/constraint-fit; 90 prompts x 3 judges) are higher across stages. In multi-turn sessions (five scenarios/agent), METIS yields slightly higher final quality than GPT-5. Gains concentrate in document-grounded stages (D-F), consistent with stage-aware routing and groundings failure modes include premature tool routing, shallow grounding, and occasional stage misclassification.