ChatPaper.aiChatPaper

MedGen: Medische Videogeneratie Ontgrendelen door Granulair Geannoteerde Medische Video's op Te Schalen

MedGen: Unlocking Medical Video Generation by Scaling Granularly-annotated Medical Videos

July 8, 2025
Auteurs: Rongsheng Wang, Junying Chen, Ke Ji, Zhenyang Cai, Shunian Chen, Yunjin Yang, Benyou Wang
cs.AI

Samenvatting

Recente vooruitgang in videogeneratie heeft opmerkelijke vooruitgang geboekt in open-domeininstellingen, maar medische videogeneratie blijft grotendeels onderbelicht. Medische video's zijn cruciaal voor toepassingen zoals klinische training, onderwijs en simulatie, waarbij niet alleen een hoge visuele kwaliteit maar ook strikte medische nauwkeurigheid vereist is. Huidige modellen produceren echter vaak onrealistische of foutieve inhoud wanneer ze worden toegepast op medische prompts, voornamelijk vanwege het ontbreken van grootschalige, hoogwaardige datasets die specifiek zijn afgestemd op het medische domein. Om deze kloof te overbruggen, introduceren we MedVideoCap-55K, de eerste grootschalige, diverse en rijkelijk voorziene dataset voor medische videogeneratie. Deze dataset bestaat uit meer dan 55.000 gecureerde clips die realistische medische scenario's omvatten, en biedt een solide basis voor het trainen van algemene modellen voor medische videogeneratie. Gebaseerd op deze dataset ontwikkelen we MedGen, dat toonaangevende prestaties behaalt onder open-source modellen en concurreert met commerciële systemen op meerdere benchmarks, zowel wat betreft visuele kwaliteit als medische nauwkeurigheid. We hopen dat onze dataset en model kunnen dienen als een waardevolle bron en kunnen helpen bij het stimuleren van verder onderzoek in medische videogeneratie. Onze code en data zijn beschikbaar op https://github.com/FreedomIntelligence/MedGen.
English
Recent advances in video generation have shown remarkable progress in open-domain settings, yet medical video generation remains largely underexplored. Medical videos are critical for applications such as clinical training, education, and simulation, requiring not only high visual fidelity but also strict medical accuracy. However, current models often produce unrealistic or erroneous content when applied to medical prompts, largely due to the lack of large-scale, high-quality datasets tailored to the medical domain. To address this gap, we introduce MedVideoCap-55K, the first large-scale, diverse, and caption-rich dataset for medical video generation. It comprises over 55,000 curated clips spanning real-world medical scenarios, providing a strong foundation for training generalist medical video generation models. Built upon this dataset, we develop MedGen, which achieves leading performance among open-source models and rivals commercial systems across multiple benchmarks in both visual quality and medical accuracy. We hope our dataset and model can serve as a valuable resource and help catalyze further research in medical video generation. Our code and data is available at https://github.com/FreedomIntelligence/MedGen
PDF262July 9, 2025