MedGen: Sbloccare la Generazione di Video Medici attraverso la Scalabilità di Video Medici con Annotazioni Granulari
MedGen: Unlocking Medical Video Generation by Scaling Granularly-annotated Medical Videos
July 8, 2025
Autori: Rongsheng Wang, Junying Chen, Ke Ji, Zhenyang Cai, Shunian Chen, Yunjin Yang, Benyou Wang
cs.AI
Abstract
I recenti progressi nella generazione di video hanno mostrato notevoli miglioramenti in contesti aperti, tuttavia la generazione di video medici rimane ampiamente inesplorata. I video medici sono cruciali per applicazioni come la formazione clinica, l'educazione e la simulazione, richiedendo non solo un'elevata fedeltà visiva ma anche una rigorosa accuratezza medica. Tuttavia, i modelli attuali spesso producono contenuti irrealistici o errati quando applicati a prompt medici, principalmente a causa della mancanza di dataset su larga scala e di alta qualità specifici per il dominio medico. Per colmare questa lacuna, presentiamo MedVideoCap-55K, il primo dataset su larga scala, diversificato e ricco di didascalie per la generazione di video medici. Esso comprende oltre 55.000 clip curate che coprono scenari medici reali, fornendo una solida base per l'addestramento di modelli generalisti per la generazione di video medici. Basato su questo dataset, sviluppiamo MedGen, che raggiunge prestazioni leader tra i modelli open-source e rivaleggia con i sistemi commerciali su più benchmark sia in termini di qualità visiva che di accuratezza medica. Speriamo che il nostro dataset e modello possano servire come una risorsa preziosa e contribuire a catalizzare ulteriori ricerche nella generazione di video medici. Il nostro codice e i dati sono disponibili all'indirizzo https://github.com/FreedomIntelligence/MedGen.
English
Recent advances in video generation have shown remarkable progress in
open-domain settings, yet medical video generation remains largely
underexplored. Medical videos are critical for applications such as clinical
training, education, and simulation, requiring not only high visual fidelity
but also strict medical accuracy. However, current models often produce
unrealistic or erroneous content when applied to medical prompts, largely due
to the lack of large-scale, high-quality datasets tailored to the medical
domain. To address this gap, we introduce MedVideoCap-55K, the first
large-scale, diverse, and caption-rich dataset for medical video generation. It
comprises over 55,000 curated clips spanning real-world medical scenarios,
providing a strong foundation for training generalist medical video generation
models. Built upon this dataset, we develop MedGen, which achieves leading
performance among open-source models and rivals commercial systems across
multiple benchmarks in both visual quality and medical accuracy. We hope our
dataset and model can serve as a valuable resource and help catalyze further
research in medical video generation. Our code and data is available at
https://github.com/FreedomIntelligence/MedGen