La experiencia genera pericia: habilitando el razonamiento generalizable de agentes médicos mediante una memoria de habilidades autoevolutiva

Resumen

Se espera que los sistemas de agentes médicos apoyen cada vez más la toma de decisiones clínicas interactiva, en lugar de limitarse a la respuesta estática a preguntas. En estos escenarios, los agentes efectivos deben reutilizar la experiencia previa a lo largo de casos en evolución; sin embargo, los mecanismos de memoria existentes a menudo retienen trazas históricas en bruto que son redundantes, ruidosas y difíciles de gobernar. Más importante aún, rara vez distinguen qué memorias son realmente útiles para el razonamiento futuro. Esto limita su capacidad para acumular experiencia compacta y fiable para el razonamiento clínico a largo plazo. Para cerrar esta brecha, proponemos SkeMex, un marco de autoevolución posterior al despliegue que mejora a los agentes médicos mediante una memoria basada en habilidades sin actualizar los pesos del modelo. SkeMex destila trayectorias de interacción informativas en habilidades estructuradas que codifican conocimiento procedimental reutilizable, y las organiza en un repositorio de múltiples ramas que abarca experiencia general, específica de tareas y a nivel de acciones. Para determinar qué memorias deben reutilizarse y retenerse, SkeMex estima la utilidad dependiente del contexto a partir de la retroalimentación del entorno y la utiliza para guiar la recuperación consciente del valor y la gobernanza del repositorio. Un ciclo de vida de bucle cerrado "Leer--Escribir--Evaluar--Gobernar" respalda aún más la evolución continua mediante la escritura de nuevas habilidades, la actualización de utilidades, la promoción de memorias útiles y la eliminación de entradas dañinas. Los experimentos en diversas tareas clínicas muestran que SkeMex supera sistemáticamente a los agentes representativos basados en memoria, tanto en entornos offline como online. También generaliza entre distintos modelos base y admite memoria de habilidades transferible. Todos los datos y el código se publicarán públicamente.

English

Medical agent systems are increasingly expected to support interactive clinical decision making rather than only static question answering. In such settings, effective agents must reuse prior experience across evolving cases, yet existing memory mechanisms often retain raw historical traces that are redundant, noisy, and difficult to govern. More importantly, they rarely distinguish which memories are truly useful for future reasoning. This limits their ability to accumulate compact and reliable experience for long-horizon clinical reasoning. To close this gap, we propose SkeMex, a post-deployment self-evolution framework that improves medical agents through a skill-based memory without updating model weights. SkeMex distills informative interaction trajectories into structured skills that encode reusable procedural knowledge, and organizes them into a multi-branch repository spanning general, task-specific, and action-level experience. To determine which memories should be reused and retained, SkeMex estimates context-dependent utility from environment feedback and uses it to guide value-aware retrieval and repository governance. A closed-loop ``Read--Write--Assess--Govern" lifecycle further supports continual evolution by writing new skills, updating utilities, promoting useful memories, and removing harmful entries. Experiments across diverse clinical tasks show that SkeMex consistently outperforms representative memory-based agents in both offline and online settings. It also generalizes across model backbones and supports transferable skill memory. All data and code will be released publicly.