U-Bench: Uma Análise Abrangente do U-Net por meio de Benchmarking com 100 Variantes
U-Bench: A Comprehensive Understanding of U-Net through 100-Variant Benchmarking
October 8, 2025
Autores: Fenghe Tang, Chengqi Dong, Wenxin Ma, Zikang Xu, Heqin Zhu, Zihang Jiang, Rongsheng Wang, Yuhao Wang, Chenxu Wu, Shaohua Kevin Zhou
cs.AI
Resumo
Na última década, a U-Net tem sido a arquitetura dominante na segmentação de imagens médicas, levando ao desenvolvimento de milhares de variantes em forma de U. Apesar de sua ampla adoção, ainda não existe um benchmark abrangente para avaliar sistematicamente seu desempenho e utilidade, principalmente devido à validação estatística insuficiente e à consideração limitada de eficiência e generalização em diversos conjuntos de dados. Para preencher essa lacuna, apresentamos o U-Bench, o primeiro benchmark em larga escala e estatisticamente rigoroso que avalia 100 variantes de U-Net em 28 conjuntos de dados e 10 modalidades de imagem. Nossas contribuições são triplas: (1) Avaliação Abrangente: O U-Bench avalia os modelos em três dimensões principais: robustez estatística, generalização zero-shot e eficiência computacional. Introduzimos uma nova métrica, o U-Score, que captura conjuntamente a relação entre desempenho e eficiência, oferecendo uma perspectiva orientada para a implantação sobre o progresso dos modelos. (2) Análise Sistemática e Orientação para Seleção de Modelos: Resumimos as principais descobertas da avaliação em larga escala e analisamos sistematicamente o impacto das características dos conjuntos de dados e dos paradigmas arquitetônicos no desempenho dos modelos. Com base nessas percepções, propomos um agente consultor de modelos para orientar os pesquisadores na seleção dos modelos mais adequados para conjuntos de dados e tarefas específicos. (3) Disponibilidade Pública: Disponibilizamos todo o código, modelos, protocolos e pesos, permitindo que a comunidade reproduza nossos resultados e estenda o benchmark com métodos futuros. Em resumo, o U-Bench não apenas expõe lacunas em avaliações anteriores, mas também estabelece uma base para benchmarks justos, reproduzíveis e praticamente relevantes na próxima década de modelos de segmentação baseados em U-Net. O projeto pode ser acessado em: https://fenghetan9.github.io/ubench. O código está disponível em: https://github.com/FengheTan9/U-Bench.
English
Over the past decade, U-Net has been the dominant architecture in medical
image segmentation, leading to the development of thousands of U-shaped
variants. Despite its widespread adoption, there is still no comprehensive
benchmark to systematically evaluate their performance and utility, largely
because of insufficient statistical validation and limited consideration of
efficiency and generalization across diverse datasets. To bridge this gap, we
present U-Bench, the first large-scale, statistically rigorous benchmark that
evaluates 100 U-Net variants across 28 datasets and 10 imaging modalities. Our
contributions are threefold: (1) Comprehensive Evaluation: U-Bench evaluates
models along three key dimensions: statistical robustness, zero-shot
generalization, and computational efficiency. We introduce a novel metric,
U-Score, which jointly captures the performance-efficiency trade-off, offering
a deployment-oriented perspective on model progress. (2) Systematic Analysis
and Model Selection Guidance: We summarize key findings from the large-scale
evaluation and systematically analyze the impact of dataset characteristics and
architectural paradigms on model performance. Based on these insights, we
propose a model advisor agent to guide researchers in selecting the most
suitable models for specific datasets and tasks. (3) Public Availability: We
provide all code, models, protocols, and weights, enabling the community to
reproduce our results and extend the benchmark with future methods. In summary,
U-Bench not only exposes gaps in previous evaluations but also establishes a
foundation for fair, reproducible, and practically relevant benchmarking in the
next decade of U-Net-based segmentation models. The project can be accessed at:
https://fenghetan9.github.io/ubench. Code is available at:
https://github.com/FengheTan9/U-Bench.