MedGen: 세밀하게 주석 처리된 의료 영상 확장을 통한 의료 영상 생성 기술 개방
MedGen: Unlocking Medical Video Generation by Scaling Granularly-annotated Medical Videos
July 8, 2025
저자: Rongsheng Wang, Junying Chen, Ke Ji, Zhenyang Cai, Shunian Chen, Yunjin Yang, Benyou Wang
cs.AI
초록
최근 비디오 생성 분야의 발전은 개방형 도메인 설정에서 놀라운 진전을 보여주었지만, 의료 비디오 생성은 여전히 크게 미개척된 상태로 남아 있습니다. 의료 비디오는 임상 훈련, 교육, 시뮬레이션과 같은 응용 분야에서 매우 중요하며, 높은 시각적 충실도뿐만 아니라 엄격한 의학적 정확성을 요구합니다. 그러나 현재의 모델들은 의료 프롬프트에 적용될 때 비현실적이거나 오류가 있는 콘텐츠를 생성하는 경우가 많으며, 이는 주로 의료 도메인에 맞춰진 대규모 고품질 데이터셋의 부족 때문입니다. 이러한 격차를 해결하기 위해, 우리는 의료 비디오 생성을 위한 첫 번째 대규모, 다양성, 캡션이 풍부한 데이터셋인 MedVideoCap-55K를 소개합니다. 이 데이터셋은 실제 의료 시나리오를 아우르는 55,000개 이상의 선별된 클립으로 구성되어 있으며, 일반적인 의료 비디오 생성 모델을 훈련하기 위한 강력한 기반을 제공합니다. 이 데이터셋을 기반으로 우리는 MedGen을 개발했으며, 이는 오픈소스 모델 중에서 선두적인 성능을 달성하고 시각적 품질과 의학적 정확성 모두에서 여러 벤치마크에서 상용 시스템과 경쟁합니다. 우리의 데이터셋과 모델이 가치 있는 자원으로 활용되고 의료 비디오 생성 연구를 더욱 촉진하는 데 도움이 되기를 바랍니다. 우리의 코드와 데이터는 https://github.com/FreedomIntelligence/MedGen에서 확인할 수 있습니다.
English
Recent advances in video generation have shown remarkable progress in
open-domain settings, yet medical video generation remains largely
underexplored. Medical videos are critical for applications such as clinical
training, education, and simulation, requiring not only high visual fidelity
but also strict medical accuracy. However, current models often produce
unrealistic or erroneous content when applied to medical prompts, largely due
to the lack of large-scale, high-quality datasets tailored to the medical
domain. To address this gap, we introduce MedVideoCap-55K, the first
large-scale, diverse, and caption-rich dataset for medical video generation. It
comprises over 55,000 curated clips spanning real-world medical scenarios,
providing a strong foundation for training generalist medical video generation
models. Built upon this dataset, we develop MedGen, which achieves leading
performance among open-source models and rivals commercial systems across
multiple benchmarks in both visual quality and medical accuracy. We hope our
dataset and model can serve as a valuable resource and help catalyze further
research in medical video generation. Our code and data is available at
https://github.com/FreedomIntelligence/MedGen