ChatPaper.aiChatPaper

MedGen: Medizinische Videogenerierung durch skalierte, granulare Annotationen erschließen

MedGen: Unlocking Medical Video Generation by Scaling Granularly-annotated Medical Videos

July 8, 2025
papers.authors: Rongsheng Wang, Junying Chen, Ke Ji, Zhenyang Cai, Shunian Chen, Yunjin Yang, Benyou Wang
cs.AI

papers.abstract

Jüngste Fortschritte in der Videogenerierung haben bemerkenswerte Fortschritte in offenen Domänen gezeigt, doch die Generierung medizinischer Videos bleibt weitgehend unerforscht. Medizinische Videos sind entscheidend für Anwendungen wie klinische Ausbildung, Bildung und Simulation, die nicht nur hohe visuelle Qualität, sondern auch strikte medizinische Genauigkeit erfordern. Allerdings produzieren aktuelle Modelle oft unrealistische oder fehlerhafte Inhalte, wenn sie auf medizinische Eingaben angewendet werden, was größtenteils auf den Mangel an groß angelegten, hochwertigen Datensätzen zurückzuführen ist, die speziell auf den medizinischen Bereich zugeschnitten sind. Um diese Lücke zu schließen, stellen wir MedVideoCap-55K vor, den ersten groß angelegten, vielfältigen und beschriftungsreichen Datensatz für die Generierung medizinischer Videos. Er umfasst über 55.000 kuratierte Clips, die reale medizinische Szenarien abdecken, und bietet eine solide Grundlage für die Ausbildung allgemeiner Modelle zur Generierung medizinischer Videos. Aufbauend auf diesem Datensatz entwickeln wir MedGen, das führende Leistungen unter Open-Source-Modellen erzielt und kommerzielle Systeme in mehreren Benchmarks sowohl in Bezug auf die visuelle Qualität als auch die medizinische Genauigkeit übertrifft. Wir hoffen, dass unser Datensatz und Modell als wertvolle Ressource dienen und weitere Forschungen in der Generierung medizinischer Videos vorantreiben können. Unser Code und unsere Daten sind unter https://github.com/FreedomIntelligence/MedGen verfügbar.
English
Recent advances in video generation have shown remarkable progress in open-domain settings, yet medical video generation remains largely underexplored. Medical videos are critical for applications such as clinical training, education, and simulation, requiring not only high visual fidelity but also strict medical accuracy. However, current models often produce unrealistic or erroneous content when applied to medical prompts, largely due to the lack of large-scale, high-quality datasets tailored to the medical domain. To address this gap, we introduce MedVideoCap-55K, the first large-scale, diverse, and caption-rich dataset for medical video generation. It comprises over 55,000 curated clips spanning real-world medical scenarios, providing a strong foundation for training generalist medical video generation models. Built upon this dataset, we develop MedGen, which achieves leading performance among open-source models and rivals commercial systems across multiple benchmarks in both visual quality and medical accuracy. We hope our dataset and model can serve as a valuable resource and help catalyze further research in medical video generation. Our code and data is available at https://github.com/FreedomIntelligence/MedGen
PDF251July 9, 2025