Diagnosi differenziale automatica utilizzando la classificazione sequenziale multi-etichetta basata su Transformer.
Automatic Differential Diagnosis using Transformer-Based Multi-Label Sequence Classification
August 28, 2024
Autori: Abu Adnan Sadi, Mohammad Ashrafuzzaman Khan, Lubaba Binte Saber
cs.AI
Abstract
Con l'avanzare del campo dell'intelligenza artificiale, le tecnologie assistive stanno diventando sempre più ampiamente utilizzate in tutti i settori. Anche l'industria sanitaria non fa eccezione, con numerosi studi in corso per sviluppare strumenti assistivi per i professionisti sanitari. I sistemi diagnostici automatici sono uno strumento benefico che può assistere in una varietà di compiti, tra cui la raccolta delle informazioni del paziente, l'analisi dei risultati dei test e la diagnosi dei pazienti. Tuttavia, l'idea di sviluppare sistemi in grado di fornire una diagnosi differenziale è stata largamente trascurata nella maggior parte di questi studi di ricerca. In questo studio, proponiamo un approccio basato su transformer per fornire diagnosi differenziali basate sull'età, il sesso, la storia clinica e i sintomi di un paziente. Utilizziamo il dataset DDXPlus, che fornisce informazioni sulla diagnosi differenziale per i pazienti basate su 49 tipi di malattie. In primo luogo, proponiamo un metodo per elaborare i dati tabulari del paziente dal dataset e trasformarli in report del paziente per renderli adatti alla nostra ricerca. Inoltre, introduciamo due moduli di modifica dei dati per diversificare i dati di addestramento e di conseguenza migliorare la robustezza dei modelli. Affrontiamo il compito come un problema di classificazione multi-etichetta e conduciamo ampi esperimenti utilizzando quattro modelli transformer. Tutti i modelli hanno mostrato risultati promettenti raggiungendo un punteggio F1 superiore al 97% sul set di test. Inoltre, progettiamo test comportamentali aggiuntivi per ottenere una comprensione più ampia dei modelli. In particolare, per uno dei nostri casi di test, abbiamo preparato un set di test personalizzato di 100 campioni con l'assistenza di un medico. I risultati sul set personalizzato hanno mostrato che i nostri moduli di modifica dei dati proposti hanno migliorato le capacità di generalizzazione del modello. Speriamo che le nostre scoperte forniscano ai futuri ricercatori preziose intuizioni e li ispirino a sviluppare sistemi affidabili per la diagnosi differenziale automatica.
English
As the field of artificial intelligence progresses, assistive technologies
are becoming more widely used across all industries. The healthcare industry is
no different, with numerous studies being done to develop assistive tools for
healthcare professionals. Automatic diagnostic systems are one such beneficial
tool that can assist with a variety of tasks, including collecting patient
information, analyzing test results, and diagnosing patients. However, the idea
of developing systems that can provide a differential diagnosis has been
largely overlooked in most of these research studies. In this study, we propose
a transformer-based approach for providing differential diagnoses based on a
patient's age, sex, medical history, and symptoms. We use the DDXPlus dataset,
which provides differential diagnosis information for patients based on 49
disease types. Firstly, we propose a method to process the tabular patient data
from the dataset and engineer them into patient reports to make them suitable
for our research. In addition, we introduce two data modification modules to
diversify the training data and consequently improve the robustness of the
models. We approach the task as a multi-label classification problem and
conduct extensive experiments using four transformer models. All the models
displayed promising results by achieving over 97% F1 score on the held-out test
set. Moreover, we design additional behavioral tests to get a broader
understanding of the models. In particular, for one of our test cases, we
prepared a custom test set of 100 samples with the assistance of a doctor. The
results on the custom set showed that our proposed data modification modules
improved the model's generalization capabilities. We hope our findings will
provide future researchers with valuable insights and inspire them to develop
reliable systems for automatic differential diagnosis.