U-Bench: Una Comprensión Integral de U-Net a través de un Benchmarking de 100 Variantes
U-Bench: A Comprehensive Understanding of U-Net through 100-Variant Benchmarking
October 8, 2025
Autores: Fenghe Tang, Chengqi Dong, Wenxin Ma, Zikang Xu, Heqin Zhu, Zihang Jiang, Rongsheng Wang, Yuhao Wang, Chenxu Wu, Shaohua Kevin Zhou
cs.AI
Resumen
Durante la última década, U-Net ha sido la arquitectura dominante en la segmentación de imágenes médicas, lo que ha llevado al desarrollo de miles de variantes en forma de U. A pesar de su amplia adopción, aún no existe un punto de referencia integral para evaluar sistemáticamente su rendimiento y utilidad, en gran parte debido a una validación estadística insuficiente y a una consideración limitada de la eficiencia y la generalización en diversos conjuntos de datos. Para cerrar esta brecha, presentamos U-Bench, el primer punto de referencia a gran escala y estadísticamente riguroso que evalúa 100 variantes de U-Net en 28 conjuntos de datos y 10 modalidades de imágenes. Nuestras contribuciones son tres: (1) Evaluación Integral: U-Bench evalúa los modelos en tres dimensiones clave: robustez estadística, generalización zero-shot y eficiencia computacional. Introducimos una nueva métrica, U-Score, que captura conjuntamente la relación entre rendimiento y eficiencia, ofreciendo una perspectiva orientada a la implementación sobre el progreso de los modelos. (2) Análisis Sistemático y Guía de Selección de Modelos: Resumimos los hallazgos clave de la evaluación a gran escala y analizamos sistemáticamente el impacto de las características de los conjuntos de datos y los paradigmas arquitectónicos en el rendimiento de los modelos. Basándonos en estas ideas, proponemos un agente asesor de modelos para guiar a los investigadores en la selección de los modelos más adecuados para conjuntos de datos y tareas específicos. (3) Disponibilidad Pública: Proporcionamos todo el código, modelos, protocolos y pesos, permitiendo que la comunidad reproduzca nuestros resultados y amplíe el punto de referencia con métodos futuros. En resumen, U-Bench no solo expone las brechas en evaluaciones anteriores, sino que también establece una base para un punto de referencia justo, reproducible y prácticamente relevante en la próxima década de modelos de segmentación basados en U-Net. El proyecto puede accederse en: https://fenghetan9.github.io/ubench. El código está disponible en: https://github.com/FengheTan9/U-Bench.
English
Over the past decade, U-Net has been the dominant architecture in medical
image segmentation, leading to the development of thousands of U-shaped
variants. Despite its widespread adoption, there is still no comprehensive
benchmark to systematically evaluate their performance and utility, largely
because of insufficient statistical validation and limited consideration of
efficiency and generalization across diverse datasets. To bridge this gap, we
present U-Bench, the first large-scale, statistically rigorous benchmark that
evaluates 100 U-Net variants across 28 datasets and 10 imaging modalities. Our
contributions are threefold: (1) Comprehensive Evaluation: U-Bench evaluates
models along three key dimensions: statistical robustness, zero-shot
generalization, and computational efficiency. We introduce a novel metric,
U-Score, which jointly captures the performance-efficiency trade-off, offering
a deployment-oriented perspective on model progress. (2) Systematic Analysis
and Model Selection Guidance: We summarize key findings from the large-scale
evaluation and systematically analyze the impact of dataset characteristics and
architectural paradigms on model performance. Based on these insights, we
propose a model advisor agent to guide researchers in selecting the most
suitable models for specific datasets and tasks. (3) Public Availability: We
provide all code, models, protocols, and weights, enabling the community to
reproduce our results and extend the benchmark with future methods. In summary,
U-Bench not only exposes gaps in previous evaluations but also establishes a
foundation for fair, reproducible, and practically relevant benchmarking in the
next decade of U-Net-based segmentation models. The project can be accessed at:
https://fenghetan9.github.io/ubench. Code is available at:
https://github.com/FengheTan9/U-Bench.