Beoordeling van Vasculaire Invasie bij Pancreatisch Ductaal Adenocarcinoom: de PDACVI-benchmark
Assessing Pancreatic Ductal Adenocarcinoma Vascular Invasion: the PDACVI Benchmark
April 30, 2026
Auteurs: M. Riera-Marín, O. K. Sikha, J. Rodríguez-Comas, M. S. May, T. Kirscher, X. Coubez, P. Meyer, S. Faisan, Z. Pan, X. Zhou, X. Liang, C. Hémon, V. Boussot, J. -L. Dillenseger, J. -C. Nunes, K. -C. Kahl, C. Lüth, J. Traub, P. -H. Conze, M. M. Duh, A. Aubanell, R. de Figueiredo Cardoso, S. Egger-Hackenschmidt, J. García-López, M. A. González-Ballester, A. Galdran
cs.AI
Samenvatting
Chirurgische resectie blijft de enige potentieel curatieve behandeling voor ductaal adenocarcinoom van de pancreas (PDAC), en geschiktheid hiervoor hangt af van een nauwkeurige beoordeling van vasculaire invasie (VI), ofwel de uitbreiding van de tumor naar aangrenzende kritieke bloedvaten. Ondanks het belang voor preoperatieve stadiering en chirurgische planning blijft computationele VI-beoordeling onderbelicht. Twee grote uitdagingen zijn het gebrek aan openbare datasets en de diagnostische ambiguïteit aan het tumor-vat grensvlak, wat leidt tot aanzienlijke variabiliteit tussen beoordelaars, zelfs onder ervaren radiologen. Om deze beperkingen aan te pakken, introduceren we de CURVAS-PDACVI Dataset en Challenge, een open benchmark voor onzekerheidsbewuste kunstmatige intelligentie bij PDAC-stadiering, gebaseerd op een dicht geannoteerde dataset met vijf onafhankelijke expertannotaties per scan. Wij stellen ook een multi-metrisch evaluatieraamwerk voor dat verder gaat dan ruimtelijke overlap en ook probabilistische kalibratie en VI-beoordeling omvat. Evaluatie van zes state-of-the-art methoden toont aan dat een sterke globale volumetrische overlap niet noodzakelijkerwijs vertaalt naar betrouwbare prestaties op klinisch kritieke tumor-vat grensvlakken. Met name methoden geoptimaliseerd voor binaire segmentatie presteren competitief op gemiddelde overlapmetrieken, maar verslechteren vaak in gevallen met hoge complexiteit en lage expertconsensus, waarbij ze ofwel in volume ineenstorten of zich overmatig uitbreiden bij onzekere grenzen. Daarentegen produceren methoden die de meningsverschillen tussen beoordelaars modelleren beter gekalibreerde probabilistische kaarten en tonen ze grotere robuustheid in deze ambigue gevallen. De benchmark benadrukt de beperkingen van volumetrische nauwkeurigheid als maatstaf voor gelokaliseerde chirurgische bruikbaarheid, en pleit voor onzekerheidsbewuste probabilistische modellen voor preoperatieve besluitvorming.
English
Surgical resection remains the only potentially curative treatment for pancreatic ductal adenocarcinoma (PDAC), and eligibility depends on accurate assessment of vascular invasion (VI), i.e., tumor extension into adjacent critical vessels. Despite its importance for preoperative staging and surgical planning, computational VI assessment remains underexplored. Two major challenges are the lack of public datasets and the diagnostic ambiguity at the tumor-vessel interface, which leads to substantial inter-rater variability even among expert radiologists. To address these limitations, we introduce the CURVAS-PDACVI Dataset and Challenge, an open benchmark for uncertainty-aware AI in PDAC staging based on a densely annotated dataset with five independent expert annotations per scan. We also propose a multi-metric evaluation framework that extends beyond spatial overlap to include probabilistic calibration and VI assessment. Evaluation of six state-of-the-art methods shows that strong global volumetric overlap does not necessarily translate into reliable performance at clinically critical tumor-vessel interfaces. In particular, methods optimized for binary segmentation perform competitively on average overlap metrics, but often degrade in high-complexity cases with low expert consensus, either collapsing in volume or overextending at uncertain boundaries. In contrast, methods that model inter-rater disagreement produce better calibrated probabilistic maps and show greater robustness in these ambiguous cases. The benchmark highlights the limitations of volumetric accuracy as a proxy for localized surgical utility, motivating uncertainty-aware probabilistic models for preoperative decision-making.