RadAgent: 흉부 컴퓨터 단층촬영의 단계적 해석을 위한 도구 활용 AI 에이전트
RadAgent: A tool-using AI agent for stepwise interpretation of chest computed tomography
April 16, 2026
저자: Mélanie Roschewitz, Kenneth Styppa, Yitian Tao, Jiwoong Sohn, Jean-Benoit Delbrouck, Benjamin Gundersen, Nicolas Deperrois, Christian Bluethgen, Julia Vogt, Bjoern Menze, Farhad Nooralahzadeh, Michael Krauthammer, Michael Moor
cs.AI
초록
비전-언어 모델(VLM)은 컴퓨터 단층촬영(CT)과 같은 복잡한 의료 영상의 AI 기반 해석 및 보고 분야에서 뚜렷한 진전을 이루었습니다. 그러나 기존 방법들은 주로 임상의를 최종 결과물의 수동적 관찰자로 전락시키며, 검토·검증·수정이 가능한 해석 가능한 추론 과정을 제공하지 않습니다. 이를 해결하기 위해 우리는 단계적이고 해석 가능한 과정을 통해 CT 보고서를 생성하는 도구 활용형 AI 에이전트인 RadAgent를 소개합니다. 생성된 각 보고서는 중간 결정 및 도구 상호작용의 완전한 검증 가능한 추적 기록을 동반하여, 임상의가 보고된 소견이 어떻게 도출되었는지 검토할 수 있게 합니다. 실험 결과, RadAgent가 3D VLM 대조군인 CT-Chat 대비 세 가지 측면에서 흉부 CT 보고서 생성을 개선하는 것을 확인했습니다. 임상 정확도는 macro-F1 기준 6.0점(36.4% 상대적 개선), micro-F1 기준 5.4점(19.6% 상대적 개선)이 향상되었습니다. 적대적 조건에서의 견고성은 24.7점(41.9% 상대적 개선) 향상되었습니다. 또한 RadAgent는 충실도(faithfulness)에서 37.0%를 달성했으며, 이는 3D VLM 대조군에서는 전혀 존재하지 않았던 새로운 능력입니다. 흉부 CT 해석을 명시적이고 도구 기반의 반복적 추론 과정으로 구조화함으로써, RadAgent는 방사선학 분야에서 투명하고 신뢰할 수 있는 AI 실현에 한 걸음 closer 다가갑니다.
English
Vision-language models (VLM) have markedly advanced AI-driven interpretation and reporting of complex medical imaging, such as computed tomography (CT). Yet, existing methods largely relegate clinicians to passive observers of final outputs, offering no interpretable reasoning trace for them to inspect, validate, or refine. To address this, we introduce RadAgent, a tool-using AI agent that generates CT reports through a stepwise and interpretable process. Each resulting report is accompanied by a fully inspectable trace of intermediate decisions and tool interactions, allowing clinicians to examine how the reported findings are derived. In our experiments, we observe that RadAgent improves Chest CT report generation over its 3D VLM counterpart, CT-Chat, across three dimensions. Clinical accuracy improves by 6.0 points (36.4% relative) in macro-F1 and 5.4 points (19.6% relative) in micro-F1. Robustness under adversarial conditions improves by 24.7 points (41.9% relative). Furthermore, RadAgent achieves 37.0% in faithfulness, a new capability entirely absent in its 3D VLM counterpart. By structuring the interpretation of chest CT as an explicit, tool-augmented and iterative reasoning trace, RadAgent brings us closer toward transparent and reliable AI for radiology.