ChatPaper.aiChatPaper

AgentEHR: Avanzando en la Toma de Decisiones Clínicas Autónomas mediante Resumen Retrospectivo

AgentEHR: Advancing Autonomous Clinical Decision-Making via Retrospective Summarization

January 20, 2026
Autores: Yusheng Liao, Chuan Xuan, Yutong Cai, Lina Yang, Zhe Chen, Yanfeng Wang, Yu Wang
cs.AI

Resumen

Los Grandes Modelos de Lenguaje han demostrado una utilidad profunda en el dominio médico. Sin embargo, su aplicación a la navegación autónoma de Registros Electrónicos de Salud (EHR) sigue estando limitada por una dependencia de entradas seleccionadas y tareas de recuperación simplificadas. Para cerrar la brecha entre los entornos experimentales idealizados y los entornos clínicos realistas, presentamos AgentEHR. Este benchmark desafía a los agentes a ejecutar tareas complejas de toma de decisiones, como el diagnóstico y la planificación del tratamiento, que requieren un razonamiento interactivo de largo alcance directamente dentro de bases de datos crudas y con alto nivel de ruido. Al abordar estas tareas, identificamos que los métodos de resumen existentes sufren inevitablemente una pérdida crítica de información y una continuidad de razonamiento fracturada. Para abordar esto, proponemos RetroSum, un marco novedoso que unifica un mecanismo de resumen retrospectivo con una estrategia de experiencia evolutiva. Al reevaluar dinámicamente el historial de interacciones, el mecanismo retrospectivo previene la pérdida de información en contextos largos y garantiza una coherencia lógica ininterrumpida. Adicionalmente, la estrategia evolutiva salva la brecha de dominio recuperando experiencia acumulada de un banco de memoria. Evaluaciones empíricas exhaustivas demuestran que RetroSum logra mejoras de rendimiento de hasta el 29.16% sobre líneas base competitivas, mientras disminuye significativamente los errores de interacción totales hasta en un 92.3%.
English
Large Language Models have demonstrated profound utility in the medical domain. However, their application to autonomous Electronic Health Records~(EHRs) navigation remains constrained by a reliance on curated inputs and simplified retrieval tasks. To bridge the gap between idealized experimental settings and realistic clinical environments, we present AgentEHR. This benchmark challenges agents to execute complex decision-making tasks, such as diagnosis and treatment planning, requiring long-range interactive reasoning directly within raw and high-noise databases. In tackling these tasks, we identify that existing summarization methods inevitably suffer from critical information loss and fractured reasoning continuity. To address this, we propose RetroSum, a novel framework that unifies a retrospective summarization mechanism with an evolving experience strategy. By dynamically re-evaluating interaction history, the retrospective mechanism prevents long-context information loss and ensures unbroken logical coherence. Additionally, the evolving strategy bridges the domain gap by retrieving accumulated experience from a memory bank. Extensive empirical evaluations demonstrate that RetroSum achieves performance gains of up to 29.16% over competitive baselines, while significantly decreasing total interaction errors by up to 92.3%.
PDF51January 23, 2026