Extracción Configurable de Información Clínica con RAG Agéntico: Qué Funciona, Qué Falla y Por Qué

Resumen

Los contextos de los pacientes abarcan cientos de documentos heterogéneos y miles de puntos de datos estructurados, pero los metadatos a nivel de documento que los sistemas de IA necesitan para la recuperación y la clasificación están ausentes o incompletos. La generación aumentada por recuperación estándar falla con estos datos, manejando incorrectamente el razonamiento temporal, las dependencias entre documentos y los metadatos faltantes. Implementamos ACIE (Extracción Clínica de Información Basada en Agentes) en el Hospital Universitario de Essen: un pipeline de RAG agente local que razona sobre contextos completos de pacientes y fundamenta cada respuesta en pasajes fuente para su verificación por parte de los médicos. Cuantificamos la brecha de metadatos, trazamos las decisiones arquitectónicas que esta generó y evaluamos la extracción junto con un estudio retrospectivo independiente del registro de linfoma, en el que médicos de medicina nuclear verificaron cada valor extraído con sus fuentes citadas. Sobre 7.326 juicios, los clínicos aceptaron el 96,5% de las extracciones, con una aceptación por tipo que osciló entre el 80% y el 99%.

English

Patient contexts span hundreds of heterogeneous documents and thousands of structured data points, yet the document-level metadata that AI systems need for retrieval and triage is absent or incomplete. Standard retrieval-augmented generation fails on this data, mishandling temporal reasoning, cross-document dependencies, and missing metadata. We deploy ACIE (Agentic Clinical Information Extraction) at University Medicine Essen: an on-premise agentic RAG pipeline that reasons over complete patient contexts and grounds every answer in source passages for clinician verification. We quantify the metadata gap, trace the architectural decisions it shaped, and evaluate extraction alongside an independent retrospective lymphoma registry study, in which nuclear-medicine physicians verify every extracted value against its cited sources. Across 7,326 judgments, clinicians accepted 96.5\% of extractions, with per-type acceptance ranging from 80\% to 99\%.