MedGen: Medizinische Videogenerierung durch skalierte, granulare Annotationen erschließen
MedGen: Unlocking Medical Video Generation by Scaling Granularly-annotated Medical Videos
July 8, 2025
papers.authors: Rongsheng Wang, Junying Chen, Ke Ji, Zhenyang Cai, Shunian Chen, Yunjin Yang, Benyou Wang
cs.AI
papers.abstract
Jüngste Fortschritte in der Videogenerierung haben bemerkenswerte Fortschritte in offenen Domänen gezeigt, doch die Generierung medizinischer Videos bleibt weitgehend unerforscht. Medizinische Videos sind entscheidend für Anwendungen wie klinische Ausbildung, Bildung und Simulation, die nicht nur hohe visuelle Qualität, sondern auch strikte medizinische Genauigkeit erfordern. Allerdings produzieren aktuelle Modelle oft unrealistische oder fehlerhafte Inhalte, wenn sie auf medizinische Eingaben angewendet werden, was größtenteils auf den Mangel an groß angelegten, hochwertigen Datensätzen zurückzuführen ist, die speziell auf den medizinischen Bereich zugeschnitten sind. Um diese Lücke zu schließen, stellen wir MedVideoCap-55K vor, den ersten groß angelegten, vielfältigen und beschriftungsreichen Datensatz für die Generierung medizinischer Videos. Er umfasst über 55.000 kuratierte Clips, die reale medizinische Szenarien abdecken, und bietet eine solide Grundlage für die Ausbildung allgemeiner Modelle zur Generierung medizinischer Videos. Aufbauend auf diesem Datensatz entwickeln wir MedGen, das führende Leistungen unter Open-Source-Modellen erzielt und kommerzielle Systeme in mehreren Benchmarks sowohl in Bezug auf die visuelle Qualität als auch die medizinische Genauigkeit übertrifft. Wir hoffen, dass unser Datensatz und Modell als wertvolle Ressource dienen und weitere Forschungen in der Generierung medizinischer Videos vorantreiben können. Unser Code und unsere Daten sind unter https://github.com/FreedomIntelligence/MedGen verfügbar.
English
Recent advances in video generation have shown remarkable progress in
open-domain settings, yet medical video generation remains largely
underexplored. Medical videos are critical for applications such as clinical
training, education, and simulation, requiring not only high visual fidelity
but also strict medical accuracy. However, current models often produce
unrealistic or erroneous content when applied to medical prompts, largely due
to the lack of large-scale, high-quality datasets tailored to the medical
domain. To address this gap, we introduce MedVideoCap-55K, the first
large-scale, diverse, and caption-rich dataset for medical video generation. It
comprises over 55,000 curated clips spanning real-world medical scenarios,
providing a strong foundation for training generalist medical video generation
models. Built upon this dataset, we develop MedGen, which achieves leading
performance among open-source models and rivals commercial systems across
multiple benchmarks in both visual quality and medical accuracy. We hope our
dataset and model can serve as a valuable resource and help catalyze further
research in medical video generation. Our code and data is available at
https://github.com/FreedomIntelligence/MedGen