ChatPaper.aiChatPaper

MedGen: Desbloqueando a Geração de Vídeos Médicos por meio da Escalonamento de Vídeos Médicos com Anotações Granulares

MedGen: Unlocking Medical Video Generation by Scaling Granularly-annotated Medical Videos

July 8, 2025
Autores: Rongsheng Wang, Junying Chen, Ke Ji, Zhenyang Cai, Shunian Chen, Yunjin Yang, Benyou Wang
cs.AI

Resumo

Os recentes avanços na geração de vídeos têm mostrado progresso notável em configurações de domínio aberto, mas a geração de vídeos médicos ainda é amplamente inexplorada. Vídeos médicos são essenciais para aplicações como treinamento clínico, educação e simulação, exigindo não apenas alta fidelidade visual, mas também precisão médica rigorosa. No entanto, os modelos atuais frequentemente produzem conteúdo irrealista ou errôneo quando aplicados a prompts médicos, principalmente devido à falta de conjuntos de dados em larga escala e de alta qualidade adaptados ao domínio médico. Para abordar essa lacuna, apresentamos o MedVideoCap-55K, o primeiro conjunto de dados em larga escala, diversificado e rico em legendas para geração de vídeos médicos. Ele compreende mais de 55.000 clipes curados que abrangem cenários médicos do mundo real, fornecendo uma base sólida para o treinamento de modelos generalistas de geração de vídeos médicos. Com base nesse conjunto de dados, desenvolvemos o MedGen, que alcança desempenho líder entre os modelos de código aberto e rivaliza com sistemas comerciais em vários benchmarks, tanto em qualidade visual quanto em precisão médica. Esperamos que nosso conjunto de dados e modelo possam servir como um recurso valioso e ajudar a catalisar novas pesquisas na geração de vídeos médicos. Nosso código e dados estão disponíveis em https://github.com/FreedomIntelligence/MedGen
English
Recent advances in video generation have shown remarkable progress in open-domain settings, yet medical video generation remains largely underexplored. Medical videos are critical for applications such as clinical training, education, and simulation, requiring not only high visual fidelity but also strict medical accuracy. However, current models often produce unrealistic or erroneous content when applied to medical prompts, largely due to the lack of large-scale, high-quality datasets tailored to the medical domain. To address this gap, we introduce MedVideoCap-55K, the first large-scale, diverse, and caption-rich dataset for medical video generation. It comprises over 55,000 curated clips spanning real-world medical scenarios, providing a strong foundation for training generalist medical video generation models. Built upon this dataset, we develop MedGen, which achieves leading performance among open-source models and rivals commercial systems across multiple benchmarks in both visual quality and medical accuracy. We hope our dataset and model can serve as a valuable resource and help catalyze further research in medical video generation. Our code and data is available at https://github.com/FreedomIntelligence/MedGen
PDF261July 9, 2025