RadAgent: Un agente de IA con uso de herramientas para la interpretación escalonada de tomografía computarizada de tórax

Resumen

Los modelos de visión y lenguaje (VLM) han avanzado notablemente en la interpretación y generación de informes de imágenes médicas complejas, como la tomografía computarizada (TC), impulsadas por la inteligencia artificial. Sin embargo, los métodos existentes relegan en gran medida a los clínicos a ser observadores pasivos de los resultados finales, sin ofrecer una traza de razonamiento interpretable que puedan inspeccionar, validar o refinar. Para abordar este problema, presentamos RadAgent, un agente de IA que utiliza herramientas y genera informes de TC mediante un proceso escalonado e interpretable. Cada informe resultante va acompañado de una traza completamente inspeccionable de decisiones intermedias e interacciones con herramientas, lo que permite a los clínicos examinar cómo se derivan los hallazgos reportados. En nuestros experimentos, observamos que RadAgent mejora la generación de informes de TC de tórax respecto a su contraparte VLM 3D, CT-Chat, en tres dimensiones. La precisión clínica mejora en 6.0 puntos (36.4% relativo) en macro-F1 y en 5.4 puntos (19.6% relativo) en micro-F1. La robustez bajo condiciones adversarias mejora en 24.7 puntos (41.9% relativo). Además, RadAgent alcanza un 37.0% en fidelidad (faithfulness), una capacidad nueva completamente ausente en su contraparte VLM 3D. Al estructurar la interpretación de la TC de tórax como una traza de razonamiento iterativa, explícita y aumentada con herramientas, RadAgent nos acerca a una IA transparente y confiable para la radiología.

English

Vision-language models (VLM) have markedly advanced AI-driven interpretation and reporting of complex medical imaging, such as computed tomography (CT). Yet, existing methods largely relegate clinicians to passive observers of final outputs, offering no interpretable reasoning trace for them to inspect, validate, or refine. To address this, we introduce RadAgent, a tool-using AI agent that generates CT reports through a stepwise and interpretable process. Each resulting report is accompanied by a fully inspectable trace of intermediate decisions and tool interactions, allowing clinicians to examine how the reported findings are derived. In our experiments, we observe that RadAgent improves Chest CT report generation over its 3D VLM counterpart, CT-Chat, across three dimensions. Clinical accuracy improves by 6.0 points (36.4% relative) in macro-F1 and 5.4 points (19.6% relative) in micro-F1. Robustness under adversarial conditions improves by 24.7 points (41.9% relative). Furthermore, RadAgent achieves 37.0% in faithfulness, a new capability entirely absent in its 3D VLM counterpart. By structuring the interpretation of chest CT as an explicit, tool-augmented and iterative reasoning trace, RadAgent brings us closer toward transparent and reliable AI for radiology.

RadAgent: Un agente de IA con uso de herramientas para la interpretación escalonada de tomografía computarizada de tórax

RadAgent: A tool-using AI agent for stepwise interpretation of chest computed tomography

Resumen

Support