Bewertung der vaskulären Invasion beim duktalen Adenokarzinom des Pankreas: der PDACVI-Benchmark
Assessing Pancreatic Ductal Adenocarcinoma Vascular Invasion: the PDACVI Benchmark
April 30, 2026
Autoren: M. Riera-Marín, O. K. Sikha, J. Rodríguez-Comas, M. S. May, T. Kirscher, X. Coubez, P. Meyer, S. Faisan, Z. Pan, X. Zhou, X. Liang, C. Hémon, V. Boussot, J. -L. Dillenseger, J. -C. Nunes, K. -C. Kahl, C. Lüth, J. Traub, P. -H. Conze, M. M. Duh, A. Aubanell, R. de Figueiredo Cardoso, S. Egger-Hackenschmidt, J. García-López, M. A. González-Ballester, A. Galdran
cs.AI
Zusammenfassung
Die chirurgische Resektion bleibt die einzige potenziell kurative Behandlung des duktalen Adenokarzinoms des Pankreas (PDAC), und die Eignung hängt von einer genauen Beurteilung der Gefäßinvasion (VI), d.h. der Tumorextension in angrenzende kritische Gefäße, ab. Trotz ihrer Bedeutung für das präoperative Staging und die Operationsplanung ist die computergestützte VI-Beurteilung nach wie vor unzureichend erforscht. Zwei Hauptherausforderungen sind das Fehlen öffentlicher Datensätze und die diagnostische Unschärfe an der Tumor-Gefäß-Grenzfläche, die selbst unter erfahrenen Radiologen zu erheblicher Inter-Rater-Variabilität führt. Um diese Einschränkungen zu adressieren, stellen wir den CURVAS-PDACVI-Datensatz und -Wettbewerb vor, einen offenen Benchmark für unsicherheitsbewusste KI im PDAC-Staging, basierend auf einem dicht annotierten Datensatz mit fünf unabhängigen Experten-Annotationen pro Scan. Wir schlagen außerdem ein Multi-Metrik-Evaluierungsframework vor, das über räumliche Überlappung hinausgeht und probabilistische Kalibrierung sowie VI-Beurteilung einschließt. Die Evaluation von sechs state-of-the-art-Methoden zeigt, dass eine starke globale volumetrische Überlappung nicht zwangsläufig in eine zuverlässige Leistung an klinisch kritischen Tumor-Gefäß-Grenzflächen übersetzt wird. Insbesondere Methoden, die für eine binäre Segmentierung optimiert sind, schneiden bei durchschnittlichen Überlappungsmetriken wettbewerbsfähig ab, verschlechtern sich jedoch häufig in Hochkomplexitätsfällen mit geringer Expertenübereinstimmung, indem sie entweder im Volumen kollabieren oder sich an unsicheren Grenzen übermäßig ausdehnen. Im Gegensatz dazu erzeugen Methoden, die die Uneinigkeit zwischen Begutachtern modellieren, besser kalibrierte probabilistische Karten und zeigen eine größere Robustheit in diesen unklaren Fällen. Der Benchmark unterstreicht die Grenzen der volumetrischen Genauigkeit als Stellvertreter für den lokalen chirurgischen Nutzen und motiviert unsicherheitsbewusste probabilistische Modelle für die präoperative Entscheidungsfindung.
English
Surgical resection remains the only potentially curative treatment for pancreatic ductal adenocarcinoma (PDAC), and eligibility depends on accurate assessment of vascular invasion (VI), i.e., tumor extension into adjacent critical vessels. Despite its importance for preoperative staging and surgical planning, computational VI assessment remains underexplored. Two major challenges are the lack of public datasets and the diagnostic ambiguity at the tumor-vessel interface, which leads to substantial inter-rater variability even among expert radiologists. To address these limitations, we introduce the CURVAS-PDACVI Dataset and Challenge, an open benchmark for uncertainty-aware AI in PDAC staging based on a densely annotated dataset with five independent expert annotations per scan. We also propose a multi-metric evaluation framework that extends beyond spatial overlap to include probabilistic calibration and VI assessment. Evaluation of six state-of-the-art methods shows that strong global volumetric overlap does not necessarily translate into reliable performance at clinically critical tumor-vessel interfaces. In particular, methods optimized for binary segmentation perform competitively on average overlap metrics, but often degrade in high-complexity cases with low expert consensus, either collapsing in volume or overextending at uncertain boundaries. In contrast, methods that model inter-rater disagreement produce better calibrated probabilistic maps and show greater robustness in these ambiguous cases. The benchmark highlights the limitations of volumetric accuracy as a proxy for localized surgical utility, motivating uncertainty-aware probabilistic models for preoperative decision-making.