Konfigurierbare klinische Informationsextraktion mit agentischem RAG: Was funktioniert, was scheitert und warum

Zusammenfassung

Patientenkontexte umfassen hunderte heterogener Dokumente und tausende strukturierter Datenpunkte, doch die für KI-Systeme erforderlichen Metadaten auf Dokumentebene für Abruf und Triage fehlen oder sind unvollständig. Die standardmäßige retrieval-gestützte Generierung versagt bei diesen Daten, da sie zeitliches Schlussfolgern, dokumentenübergreifende Abhängigkeiten und fehlende Metadaten nicht angemessen verarbeitet. Wir setzen ACIE (Agentic Clinical Information Extraction) an der Universitätsmedizin Essen ein: eine lokale agentische RAG-Pipeline, die über vollständige Patientenkontexte schlussfolgert und jede Antwort zur klinischen Überprüfung mit Quellpassagen belegt. Wir quantifizieren die Metadatenlücke, zeichnen die daraus resultierenden architektonischen Entscheidungen nach und evaluieren die Extraktion gemeinsam mit einer unabhängigen retrospektiven Lymphomregister-Studie, in der Nuklearmediziner jeden extrahierten Wert anhand der zitierten Quellen verifizieren. Bei 7.326 Beurteilungen akzeptierten die Kliniker 96,5 % der Extraktionen, wobei die Akzeptanz pro Typ zwischen 80 % und 99 % lag.

English

Patient contexts span hundreds of heterogeneous documents and thousands of structured data points, yet the document-level metadata that AI systems need for retrieval and triage is absent or incomplete. Standard retrieval-augmented generation fails on this data, mishandling temporal reasoning, cross-document dependencies, and missing metadata. We deploy ACIE (Agentic Clinical Information Extraction) at University Medicine Essen: an on-premise agentic RAG pipeline that reasons over complete patient contexts and grounds every answer in source passages for clinician verification. We quantify the metadata gap, trace the architectural decisions it shaped, and evaluate extraction alongside an independent retrospective lymphoma registry study, in which nuclear-medicine physicians verify every extracted value against its cited sources. Across 7,326 judgments, clinicians accepted 96.5\% of extractions, with per-type acceptance ranging from 80\% to 99\%.