Evaluación de la Invasión Vascular en el Adenocarcinoma Ductal Pancreático: El Punto de Referencia PDACVI
Assessing Pancreatic Ductal Adenocarcinoma Vascular Invasion: the PDACVI Benchmark
April 30, 2026
Autores: M. Riera-Marín, O. K. Sikha, J. Rodríguez-Comas, M. S. May, T. Kirscher, X. Coubez, P. Meyer, S. Faisan, Z. Pan, X. Zhou, X. Liang, C. Hémon, V. Boussot, J. -L. Dillenseger, J. -C. Nunes, K. -C. Kahl, C. Lüth, J. Traub, P. -H. Conze, M. M. Duh, A. Aubanell, R. de Figueiredo Cardoso, S. Egger-Hackenschmidt, J. García-López, M. A. González-Ballester, A. Galdran
cs.AI
Resumen
La resección quirúrgica sigue siendo el único tratamiento potencialmente curativo para el adenocarcinoma ductal pancreático (ADP), y la elegibilidad depende de una evaluación precisa de la invasión vascular (IV), es decir, de la extensión del tumor a vasos críticos adyacentes. A pesar de su importancia para la estadificación preoperatoria y la planificación quirúrgica, la evaluación computacional de la IV sigue siendo un área poco explorada. Dos grandes desafíos son la falta de conjuntos de datos públicos y la ambigüedad diagnóstica en la interfaz tumor-vaso, lo que genera una variabilidad sustancial entre evaluadores, incluso entre radiólogos expertos. Para abordar estas limitaciones, presentamos el Conjunto de Datos y Desafío CURVAS-PDACVI, un benchmark abierto para la IA consciente de la incertidumbre en la estadificación del ADP, basado en un conjunto de datos anotado densamente con cinco anotaciones expertas independientes por escaneo. También proponemos un marco de evaluación multi-métrica que se extiende más allá de la superposición espacial para incluir la calibración probabilística y la evaluación de la IV. La evaluación de seis métodos de vanguardia muestra que una fuerte superposición volumétrica global no se traduce necesariamente en un rendimiento confiable en las interfaces tumor-vaso clínicamente críticas. En particular, los métodos optimizados para la segmentación binaria tienen un rendimiento competitivo en las métricas de superposición promedio, pero a menudo se degradan en casos de alta complejidad con bajo consenso entre expertos, ya sea colapsando en volumen o sobreextendiéndose en límites inciertos. Por el contrario, los métodos que modelan el desacuerdo entre evaluadores producen mapas probabilísticos mejor calibrados y muestran una mayor robustez en estos casos ambiguos. El benchmark subraya las limitaciones de la precisión volumétrica como proxy de la utilidad quirúrgica localizada, lo que motiva el desarrollo de modelos probabilísticos conscientes de la incertidumbre para la toma de decisiones preoperatorias.
English
Surgical resection remains the only potentially curative treatment for pancreatic ductal adenocarcinoma (PDAC), and eligibility depends on accurate assessment of vascular invasion (VI), i.e., tumor extension into adjacent critical vessels. Despite its importance for preoperative staging and surgical planning, computational VI assessment remains underexplored. Two major challenges are the lack of public datasets and the diagnostic ambiguity at the tumor-vessel interface, which leads to substantial inter-rater variability even among expert radiologists. To address these limitations, we introduce the CURVAS-PDACVI Dataset and Challenge, an open benchmark for uncertainty-aware AI in PDAC staging based on a densely annotated dataset with five independent expert annotations per scan. We also propose a multi-metric evaluation framework that extends beyond spatial overlap to include probabilistic calibration and VI assessment. Evaluation of six state-of-the-art methods shows that strong global volumetric overlap does not necessarily translate into reliable performance at clinically critical tumor-vessel interfaces. In particular, methods optimized for binary segmentation perform competitively on average overlap metrics, but often degrade in high-complexity cases with low expert consensus, either collapsing in volume or overextending at uncertain boundaries. In contrast, methods that model inter-rater disagreement produce better calibrated probabilistic maps and show greater robustness in these ambiguous cases. The benchmark highlights the limitations of volumetric accuracy as a proxy for localized surgical utility, motivating uncertainty-aware probabilistic models for preoperative decision-making.