RadAgent: un agente IA che utilizza strumenti per l'interpretazione graduale della tomografia computerizzata del torace

Abstract

I modelli visione-linguaggio (VLM) hanno notevolmente progredito l'interpretazione e la refertazione guidate dall'IA delle immagini mediche complesse, come la tomografia computerizzata (TC). Tuttavia, i metodi esistenti relegano in larga misura i clinici al ruolo di osservatori passivi degli output finali, senza offrire una traccia di ragionamento interpretabile da loro ispezionabile, convalidabile o perfezionabile. Per affrontare questo limite, introduciamo RadAgent, un agente di IA che utilizza strumenti per generare referti TC attraverso un processo graduale e interpretabile. Ogni referto risultante è accompagnato da una traccia completamente ispezionabile delle decisioni intermedie e delle interazioni con gli strumenti, consentendo ai clinici di esaminare come i reperti refertati vengono derivati. Nei nostri esperimenti, osserviamo che RadAgent migliora la generazione di referti di TC del Torace rispetto alla sua controparte VLM 3D, CT-Chat, in tre dimensioni. L'accuratezza clinica migliora di 6,0 punti (36,4% in relativo) in macro-F1 e di 5,4 punti (19,6% in relativo) in micro-F1. La robustezza in condizioni avverse migliora di 24,7 punti (41,9% in relativo). Inoltre, RadAgent raggiunge il 37,0% nella fedeltà fattuale (faithfulness), una nuova capacità totalmente assente nella sua controparte VLM 3D. Strutturando l'interpretazione della TC del torace come una traccia di ragionamento esplicita, aumentata da strumenti e iterativa, RadAgent ci avvicina a un'IA trasparente e affidabile per la radiologia.

English

Vision-language models (VLM) have markedly advanced AI-driven interpretation and reporting of complex medical imaging, such as computed tomography (CT). Yet, existing methods largely relegate clinicians to passive observers of final outputs, offering no interpretable reasoning trace for them to inspect, validate, or refine. To address this, we introduce RadAgent, a tool-using AI agent that generates CT reports through a stepwise and interpretable process. Each resulting report is accompanied by a fully inspectable trace of intermediate decisions and tool interactions, allowing clinicians to examine how the reported findings are derived. In our experiments, we observe that RadAgent improves Chest CT report generation over its 3D VLM counterpart, CT-Chat, across three dimensions. Clinical accuracy improves by 6.0 points (36.4% relative) in macro-F1 and 5.4 points (19.6% relative) in micro-F1. Robustness under adversarial conditions improves by 24.7 points (41.9% relative). Furthermore, RadAgent achieves 37.0% in faithfulness, a new capability entirely absent in its 3D VLM counterpart. By structuring the interpretation of chest CT as an explicit, tool-augmented and iterative reasoning trace, RadAgent brings us closer toward transparent and reliable AI for radiology.

RadAgent: un agente IA che utilizza strumenti per l'interpretazione graduale della tomografia computerizzata del torace

RadAgent: A tool-using AI agent for stepwise interpretation of chest computed tomography

Abstract

Support