MedGen: Разблокировка генерации медицинских видео за счет масштабирования детально аннотированных медицинских видеоматериалов
MedGen: Unlocking Medical Video Generation by Scaling Granularly-annotated Medical Videos
July 8, 2025
Авторы: Rongsheng Wang, Junying Chen, Ke Ji, Zhenyang Cai, Shunian Chen, Yunjin Yang, Benyou Wang
cs.AI
Аннотация
Последние достижения в области генерации видео демонстрируют значительный прогресс в открытых областях, однако генерация медицинских видео остается малоизученной. Медицинские видео имеют критическое значение для таких приложений, как клиническое обучение, образование и симуляции, требуя не только высокой визуальной точности, но и строгой медицинской достоверности. Однако современные модели часто создают нереалистичный или ошибочный контент при работе с медицинскими запросами, что во многом связано с отсутствием крупномасштабных, высококачественных наборов данных, адаптированных для медицинской области. Для устранения этого пробела мы представляем MedVideoCap-55K — первый крупномасштабный, разнообразный и богатый текстовыми описаниями набор данных для генерации медицинских видео. Он включает более 55 000 отобранных видеоклипов, охватывающих реальные медицинские сценарии, что обеспечивает прочную основу для обучения универсальных моделей генерации медицинских видео. На основе этого набора данных мы разработали MedGen, который демонстрирует лидирующие результаты среди моделей с открытым исходным кодом и конкурирует с коммерческими системами по нескольким критериям, включая визуальное качество и медицинскую точность. Мы надеемся, что наш набор данных и модель станут ценным ресурсом и помогут стимулировать дальнейшие исследования в области генерации медицинских видео. Наш код и данные доступны по адресу https://github.com/FreedomIntelligence/MedGen.
English
Recent advances in video generation have shown remarkable progress in
open-domain settings, yet medical video generation remains largely
underexplored. Medical videos are critical for applications such as clinical
training, education, and simulation, requiring not only high visual fidelity
but also strict medical accuracy. However, current models often produce
unrealistic or erroneous content when applied to medical prompts, largely due
to the lack of large-scale, high-quality datasets tailored to the medical
domain. To address this gap, we introduce MedVideoCap-55K, the first
large-scale, diverse, and caption-rich dataset for medical video generation. It
comprises over 55,000 curated clips spanning real-world medical scenarios,
providing a strong foundation for training generalist medical video generation
models. Built upon this dataset, we develop MedGen, which achieves leading
performance among open-source models and rivals commercial systems across
multiple benchmarks in both visual quality and medical accuracy. We hope our
dataset and model can serve as a valuable resource and help catalyze further
research in medical video generation. Our code and data is available at
https://github.com/FreedomIntelligence/MedGen