Extração Configurável de Informações Clínicas com RAG Agêntico: O que funciona, o que falha e por quê

Resumo

Os contextos dos pacientes abrangem centenas de documentos heterogêneos e milhares de pontos de dados estruturados, mas os metadados em nível de documento de que os sistemas de IA precisam para recuperação e triagem estão ausentes ou incompletos. A geração aumentada por recuperação padrão falha nesses dados, lidando de forma inadequada com raciocínio temporal, dependências entre documentos e metadados ausentes. Implementamos o ACIE (Extração Clínica de Informações Agentica) no Hospital Universitário de Essen: um pipeline agentico de RAG on-premise que raciocina sobre contextos completos dos pacientes e fundamenta cada resposta em passagens de origem para verificação clínica. Quantificamos a lacuna de metadados, traçamos as decisões arquiteturais que ela moldou e avaliamos a extração juntamente com um estudo retrospectivo independente de registro de linfoma, no qual médicos de medicina nuclear verificam cada valor extraído em relação às suas fontes citadas. Em 7.326 julgamentos, os clínicos aceitaram 96,5% das extrações, com aceitação por tipo variando de 80% a 99%.

English

Patient contexts span hundreds of heterogeneous documents and thousands of structured data points, yet the document-level metadata that AI systems need for retrieval and triage is absent or incomplete. Standard retrieval-augmented generation fails on this data, mishandling temporal reasoning, cross-document dependencies, and missing metadata. We deploy ACIE (Agentic Clinical Information Extraction) at University Medicine Essen: an on-premise agentic RAG pipeline that reasons over complete patient contexts and grounds every answer in source passages for clinician verification. We quantify the metadata gap, trace the architectural decisions it shaped, and evaluate extraction alongside an independent retrospective lymphoma registry study, in which nuclear-medicine physicians verify every extracted value against its cited sources. Across 7,326 judgments, clinicians accepted 96.5\% of extractions, with per-type acceptance ranging from 80\% to 99\%.