ChatPaper.aiChatPaper

MedGen: 粒度の高い注釈付き医療動画のスケーリングによる医療動画生成の実現

MedGen: Unlocking Medical Video Generation by Scaling Granularly-annotated Medical Videos

July 8, 2025
著者: Rongsheng Wang, Junying Chen, Ke Ji, Zhenyang Cai, Shunian Chen, Yunjin Yang, Benyou Wang
cs.AI

要旨

近年、ビデオ生成技術はオープンドメイン設定において顕著な進歩を遂げてきたが、医療ビデオ生成は依然として十分に探求されていない。医療ビデオは、臨床トレーニング、教育、シミュレーションなどのアプリケーションにおいて重要であり、高い視覚的忠実度だけでなく、厳密な医療的精度も要求される。しかし、現在のモデルは医療関連のプロンプトに適用されると、非現実的または誤った内容を生成することが多く、これは主に医療分野に特化した大規模で高品質なデータセットの不足によるものである。このギャップを埋めるため、我々はMedVideoCap-55Kを導入する。これは、医療ビデオ生成のための初の大規模で多様かつキャプション豊富なデータセットであり、55,000以上の現実世界の医療シナリオにわたるクリップを厳選して提供し、汎用医療ビデオ生成モデルのトレーニングの強固な基盤を提供する。このデータセットを基に、我々はMedGenを開発し、オープンソースモデルの中でリーディングな性能を達成し、視覚品質と医療的精度の両方において複数のベンチマークで商用システムと肩を並べる。我々のデータセットとモデルが貴重なリソースとして機能し、医療ビデオ生成のさらなる研究を促進することを期待する。コードとデータはhttps://github.com/FreedomIntelligence/MedGenで公開されている。
English
Recent advances in video generation have shown remarkable progress in open-domain settings, yet medical video generation remains largely underexplored. Medical videos are critical for applications such as clinical training, education, and simulation, requiring not only high visual fidelity but also strict medical accuracy. However, current models often produce unrealistic or erroneous content when applied to medical prompts, largely due to the lack of large-scale, high-quality datasets tailored to the medical domain. To address this gap, we introduce MedVideoCap-55K, the first large-scale, diverse, and caption-rich dataset for medical video generation. It comprises over 55,000 curated clips spanning real-world medical scenarios, providing a strong foundation for training generalist medical video generation models. Built upon this dataset, we develop MedGen, which achieves leading performance among open-source models and rivals commercial systems across multiple benchmarks in both visual quality and medical accuracy. We hope our dataset and model can serve as a valuable resource and help catalyze further research in medical video generation. Our code and data is available at https://github.com/FreedomIntelligence/MedGen
PDF251July 9, 2025