ChatPaper.aiChatPaper

MedGen: Desbloqueando la Generación de Videos Médicos mediante Escalado de Videos Médicos con Anotaciones Granulares

MedGen: Unlocking Medical Video Generation by Scaling Granularly-annotated Medical Videos

July 8, 2025
Autores: Rongsheng Wang, Junying Chen, Ke Ji, Zhenyang Cai, Shunian Chen, Yunjin Yang, Benyou Wang
cs.AI

Resumen

Los recientes avances en la generación de videos han mostrado un progreso notable en entornos de dominio abierto, pero la generación de videos médicos sigue siendo un área poco explorada. Los videos médicos son cruciales para aplicaciones como la formación clínica, la educación y la simulación, requiriendo no solo una alta fidelidad visual sino también una precisión médica estricta. Sin embargo, los modelos actuales a menudo producen contenido poco realista o erróneo cuando se aplican a indicaciones médicas, principalmente debido a la falta de conjuntos de datos a gran escala y de alta calidad adaptados al ámbito médico. Para abordar esta brecha, presentamos MedVideoCap-55K, el primer conjunto de datos a gran escala, diverso y rico en descripciones para la generación de videos médicos. Este comprende más de 55,000 clips seleccionados que abarcan escenarios médicos del mundo real, proporcionando una base sólida para entrenar modelos generalistas de generación de videos médicos. Basándonos en este conjunto de datos, desarrollamos MedGen, que logra un rendimiento líder entre los modelos de código abierto y compite con sistemas comerciales en múltiples benchmarks tanto en calidad visual como en precisión médica. Esperamos que nuestro conjunto de datos y modelo sirvan como un recurso valioso y ayuden a catalizar futuras investigaciones en la generación de videos médicos. Nuestro código y datos están disponibles en https://github.com/FreedomIntelligence/MedGen.
English
Recent advances in video generation have shown remarkable progress in open-domain settings, yet medical video generation remains largely underexplored. Medical videos are critical for applications such as clinical training, education, and simulation, requiring not only high visual fidelity but also strict medical accuracy. However, current models often produce unrealistic or erroneous content when applied to medical prompts, largely due to the lack of large-scale, high-quality datasets tailored to the medical domain. To address this gap, we introduce MedVideoCap-55K, the first large-scale, diverse, and caption-rich dataset for medical video generation. It comprises over 55,000 curated clips spanning real-world medical scenarios, providing a strong foundation for training generalist medical video generation models. Built upon this dataset, we develop MedGen, which achieves leading performance among open-source models and rivals commercial systems across multiple benchmarks in both visual quality and medical accuracy. We hope our dataset and model can serve as a valuable resource and help catalyze further research in medical video generation. Our code and data is available at https://github.com/FreedomIntelligence/MedGen
PDF251July 9, 2025