MedGen : Libérer la génération de vidéos médicales grâce à la mise à l'échelle de vidéos médicales annotées de manière granulaire
MedGen: Unlocking Medical Video Generation by Scaling Granularly-annotated Medical Videos
July 8, 2025
papers.authors: Rongsheng Wang, Junying Chen, Ke Ji, Zhenyang Cai, Shunian Chen, Yunjin Yang, Benyou Wang
cs.AI
papers.abstract
Les récents progrès dans la génération de vidéos ont montré des avancées remarquables dans des contextes ouverts, mais la génération de vidéos médicales reste largement inexplorée. Les vidéos médicales sont essentielles pour des applications telles que la formation clinique, l'éducation et la simulation, nécessitant non seulement une fidélité visuelle élevée mais aussi une précision médicale stricte. Cependant, les modèles actuels produisent souvent un contenu irréaliste ou erroné lorsqu'ils sont appliqués à des prompts médicaux, principalement en raison du manque de jeux de données à grande échelle et de haute qualité adaptés au domaine médical. Pour combler cette lacune, nous introduisons MedVideoCap-55K, le premier jeu de données à grande échelle, diversifié et riche en légendes pour la génération de vidéos médicales. Il comprend plus de 55 000 clips soigneusement sélectionnés couvrant des scénarios médicaux réels, offrant une base solide pour l'entraînement de modèles généralistes de génération de vidéos médicales. Basé sur ce jeu de données, nous développons MedGen, qui atteint des performances de pointe parmi les modèles open-source et rivalise avec les systèmes commerciaux sur plusieurs benchmarks en termes de qualité visuelle et de précision médicale. Nous espérons que notre jeu de données et notre modèle pourront servir de ressource précieuse et contribuer à catalyser davantage de recherches dans le domaine de la génération de vidéos médicales. Notre code et nos données sont disponibles à l'adresse suivante : https://github.com/FreedomIntelligence/MedGen.
English
Recent advances in video generation have shown remarkable progress in
open-domain settings, yet medical video generation remains largely
underexplored. Medical videos are critical for applications such as clinical
training, education, and simulation, requiring not only high visual fidelity
but also strict medical accuracy. However, current models often produce
unrealistic or erroneous content when applied to medical prompts, largely due
to the lack of large-scale, high-quality datasets tailored to the medical
domain. To address this gap, we introduce MedVideoCap-55K, the first
large-scale, diverse, and caption-rich dataset for medical video generation. It
comprises over 55,000 curated clips spanning real-world medical scenarios,
providing a strong foundation for training generalist medical video generation
models. Built upon this dataset, we develop MedGen, which achieves leading
performance among open-source models and rivals commercial systems across
multiple benchmarks in both visual quality and medical accuracy. We hope our
dataset and model can serve as a valuable resource and help catalyze further
research in medical video generation. Our code and data is available at
https://github.com/FreedomIntelligence/MedGen