Extraction d'informations cliniques configurable avec RAG agentique : ce qui fonctionne, ce qui ne fonctionne pas, et pourquoi

Résumé

Les contextes de patients couvrent des centaines de documents hétérogènes et des milliers de points de données structurés, mais les métadonnées au niveau des documents dont les systèmes d'IA ont besoin pour la récupération et le triage sont absentes ou incomplètes. La génération augmentée de récupération standard échoue sur ces données, en raison d'une mauvaise gestion du raisonnement temporel, des dépendances entre documents et des métadonnées manquantes. Nous déployons ACIE (Extraction Clinique Agentique) au Centre Hospitalier Universitaire d'Essen : un pipeline RAG agentique sur site qui raisonne sur des contextes complets de patients et ancre chaque réponse dans des passages sources pour vérification par les cliniciens. Nous quantifions la lacune des métadonnées, retraçons les décisions architecturales qu'elle a façonnées, et évaluons l'extraction parallèlement à une étude rétrospective indépendante de registre de lymphome, dans laquelle des médecins nucléaires vérifient chaque valeur extraite par rapport à ses sources citées. Sur 7 326 jugements, les cliniciens ont accepté 96,5 % des extractions, avec un taux d'acceptation par type allant de 80 % à 99 %.

English

Patient contexts span hundreds of heterogeneous documents and thousands of structured data points, yet the document-level metadata that AI systems need for retrieval and triage is absent or incomplete. Standard retrieval-augmented generation fails on this data, mishandling temporal reasoning, cross-document dependencies, and missing metadata. We deploy ACIE (Agentic Clinical Information Extraction) at University Medicine Essen: an on-premise agentic RAG pipeline that reasons over complete patient contexts and grounds every answer in source passages for clinician verification. We quantify the metadata gap, trace the architectural decisions it shaped, and evaluate extraction alongside an independent retrospective lymphoma registry study, in which nuclear-medicine physicians verify every extracted value against its cited sources. Across 7,326 judgments, clinicians accepted 96.5\% of extractions, with per-type acceptance ranging from 80\% to 99\%.