MedGen: Desbloqueando a Geração de Vídeos Médicos por meio da Escalonamento de Vídeos Médicos com Anotações Granulares
MedGen: Unlocking Medical Video Generation by Scaling Granularly-annotated Medical Videos
July 8, 2025
Autores: Rongsheng Wang, Junying Chen, Ke Ji, Zhenyang Cai, Shunian Chen, Yunjin Yang, Benyou Wang
cs.AI
Resumo
Os recentes avanços na geração de vídeos têm mostrado progresso notável em
configurações de domínio aberto, mas a geração de vídeos médicos ainda é
amplamente inexplorada. Vídeos médicos são essenciais para aplicações como
treinamento clínico, educação e simulação, exigindo não apenas alta fidelidade
visual, mas também precisão médica rigorosa. No entanto, os modelos atuais
frequentemente produzem conteúdo irrealista ou errôneo quando aplicados a
prompts médicos, principalmente devido à falta de conjuntos de dados em larga
escala e de alta qualidade adaptados ao domínio médico. Para abordar essa lacuna,
apresentamos o MedVideoCap-55K, o primeiro conjunto de dados em larga escala,
diversificado e rico em legendas para geração de vídeos médicos. Ele
compreende mais de 55.000 clipes curados que abrangem cenários médicos do mundo
real, fornecendo uma base sólida para o treinamento de modelos generalistas de
geração de vídeos médicos. Com base nesse conjunto de dados, desenvolvemos o
MedGen, que alcança desempenho líder entre os modelos de código aberto e rivaliza
com sistemas comerciais em vários benchmarks, tanto em qualidade visual quanto
em precisão médica. Esperamos que nosso conjunto de dados e modelo possam servir
como um recurso valioso e ajudar a catalisar novas pesquisas na geração de
vídeos médicos. Nosso código e dados estão disponíveis em
https://github.com/FreedomIntelligence/MedGen
English
Recent advances in video generation have shown remarkable progress in
open-domain settings, yet medical video generation remains largely
underexplored. Medical videos are critical for applications such as clinical
training, education, and simulation, requiring not only high visual fidelity
but also strict medical accuracy. However, current models often produce
unrealistic or erroneous content when applied to medical prompts, largely due
to the lack of large-scale, high-quality datasets tailored to the medical
domain. To address this gap, we introduce MedVideoCap-55K, the first
large-scale, diverse, and caption-rich dataset for medical video generation. It
comprises over 55,000 curated clips spanning real-world medical scenarios,
providing a strong foundation for training generalist medical video generation
models. Built upon this dataset, we develop MedGen, which achieves leading
performance among open-source models and rivals commercial systems across
multiple benchmarks in both visual quality and medical accuracy. We hope our
dataset and model can serve as a valuable resource and help catalyze further
research in medical video generation. Our code and data is available at
https://github.com/FreedomIntelligence/MedGen