Configureerbare klinische informatie-extractie met agentische RAG: wat werkt, wat faalt, en waarom

Samenvatting

Patiëntcontexten omvatten honderden heterogene documenten en duizenden gestructureerde datapunten, maar de metadata op documentniveau die AI-systemen nodig hebben voor retrieval en triage ontbreekt of is onvolledig. Standaard retrieval-ondersteunde generatie faalt op deze gegevens: het gaat slecht om met temporeel redeneren, afhankelijkheden tussen documenten en ontbrekende metadata. Wij implementeren ACIE (Agentic Clinical Information Extraction) aan het Universitair Ziekenhuis Essen: een on-premise agentische RAG-pijplijn die redeneert over complete patiëntcontexten en elk antwoord onderbouwt met bronpassages voor verificatie door clinici. We kwantificeren de metadatakloof, traceren de architectonische beslissingen die hierdoor werden gevormd, en evalueren de extractie naast een onafhankelijke retrospectieve lymfoomregisterstudie, waarin nucleair geneeskundigen elke geëxtraheerde waarde verifiëren tegenover de aangehaalde bronnen. Over 7.326 beoordelingen heen accepteerden clinici 96,5% van de extracties, met acceptatie per type variërend van 80% tot 99%.

English

Patient contexts span hundreds of heterogeneous documents and thousands of structured data points, yet the document-level metadata that AI systems need for retrieval and triage is absent or incomplete. Standard retrieval-augmented generation fails on this data, mishandling temporal reasoning, cross-document dependencies, and missing metadata. We deploy ACIE (Agentic Clinical Information Extraction) at University Medicine Essen: an on-premise agentic RAG pipeline that reasons over complete patient contexts and grounds every answer in source passages for clinician verification. We quantify the metadata gap, trace the architectural decisions it shaped, and evaluate extraction alongside an independent retrospective lymphoma registry study, in which nuclear-medicine physicians verify every extracted value against its cited sources. Across 7,326 judgments, clinicians accepted 96.5\% of extractions, with per-type acceptance ranging from 80\% to 99\%.