RadAgent: Ein werkzeugnutzender KI-Agent zur schrittweisen Interpretation der Thorax-Computertomographie

Zusammenfassung

Vision-Language-Modelle (VLM) haben die KI-gestützte Interpretation und Befundung komplexer medizinischer Bildgebungsverfahren wie der Computertomographie (CT) erheblich vorangetrieben. Bislang reduzieren bestehende Methoden Kliniker jedoch weitgehend auf passive Betrachter der Endergebnisse, ohne eine nachvollziehbare Reasoning-Spur zur Überprüfung, Validierung oder Verfeinerung bereitzustellen. Um dieses Problem zu adressieren, stellen wir RadAgent vor, einen werkzeugnutzenden KI-Agenten, der CT-Befunde durch einen schrittweisen und interpretierbaren Prozess generiert. Jeder resultierende Befund wird von einer vollständig einsehbaren Spur aus Zwischenentscheidungen und Werkzeuginteraktionen begleitet, die es Klinikern ermöglicht, nachzuvollziehen, wie die berichteten Befunde abgeleitet wurden. In unseren Experimenten beobachten wir, dass RadAgent die Erstellung von Thorax-CT-Befunden im Vergleich zu seinem 3D-VLM-Pendant CT-Chat in drei Dimensionen verbessert. Die klinische Genauigkeit steigt um 6,0 Punkte (36,4 % relativ) im Makro-F1 und um 5,4 Punkte (19,6 % relativ) im Mikro-F1. Die Robustheit unter adversen Bedingungen verbessert sich um 24,7 Punkte (41,9 % relativ). Darüber hinaus erreicht RadAgent 37,0 % bei der Faithfulness (Übereinstimmungsgüte) – eine Fähigkeit, die bei seinem 3D-VLM-Pendant gänzlich fehlt. Indem RadAgent die Interpretation von Thorax-CTs als expliziten, werkzeuggestützten und iterativen Reasoning-Prozess strukturiert, bringt es uns transparenten und zuverlässigen KI-Lösungen für die Radiologie näher.

English

Vision-language models (VLM) have markedly advanced AI-driven interpretation and reporting of complex medical imaging, such as computed tomography (CT). Yet, existing methods largely relegate clinicians to passive observers of final outputs, offering no interpretable reasoning trace for them to inspect, validate, or refine. To address this, we introduce RadAgent, a tool-using AI agent that generates CT reports through a stepwise and interpretable process. Each resulting report is accompanied by a fully inspectable trace of intermediate decisions and tool interactions, allowing clinicians to examine how the reported findings are derived. In our experiments, we observe that RadAgent improves Chest CT report generation over its 3D VLM counterpart, CT-Chat, across three dimensions. Clinical accuracy improves by 6.0 points (36.4% relative) in macro-F1 and 5.4 points (19.6% relative) in micro-F1. Robustness under adversarial conditions improves by 24.7 points (41.9% relative). Furthermore, RadAgent achieves 37.0% in faithfulness, a new capability entirely absent in its 3D VLM counterpart. By structuring the interpretation of chest CT as an explicit, tool-augmented and iterative reasoning trace, RadAgent brings us closer toward transparent and reliable AI for radiology.

RadAgent: Ein werkzeugnutzender KI-Agent zur schrittweisen Interpretation der Thorax-Computertomographie

RadAgent: A tool-using AI agent for stepwise interpretation of chest computed tomography

Zusammenfassung

Support