수술 세계 모델까지 외과의사는 얼마나 먼 걸음인가? 전문가 평가를 통한 제로샷 수술 영상 생성에 관한 파일럿 연구
How Far Are Surgeons from Surgical World Models? A Pilot Study on Zero-shot Surgical Video Generation with Expert Assessment
November 3, 2025
저자: Zhen Chen, Qing Xu, Jinlin Wu, Biao Yang, Yuhao Zhai, Geng Guo, Jing Zhang, Yinlu Ding, Nassir Navab, Jiebo Luo
cs.AI
초록
비디오 생성 분야의 파운데이션 모델은 물리 세계를 시뮬레이션하는 잠재적 월드 모델로서 놀라운 능력을 보여주고 있습니다. 그러나 일반적인 물리 법칙이 아닌 깊이 있고 전문적인 인과 관계 지식을 요구하는 수술과 같은 고위험 분야에서의 적용은 여전히 중요한 미개척 영역으로 남아 있습니다. 이러한 과제를 체계적으로 해결하기 위해 우리는 수술 영상 생성 모델 평가를 위한 최초의 전문가 검증 벤치마크인 SurgVeo와 기본적인 외형에서 복잡한 수술 전략에 이르기까지 모델 출력을 평가하도록 맞춤화된 새로운 4단계 프레임워크인 수술 합리성 피라미드(SPP)를 제시합니다. SurgVeo 벤치마크를 기반으로 우리는 최첨단 Veo-3 모델에 복강경 및 신경외과 수술 영상 클립에 대한 제로샷 예측 과제를 부여합니다. 4명의 전문의 자격을 갖춘 외과의사 패널이 SPP에 따라 생성된 영상을 평가했습니다. 우리의 결과는 뚜렷한 "합리성 격차"를 보여줍니다: Veo-3는 시각적 지각 합리성에서는 탁월한 성과를 거두지만, SPP의 상위 단계인 도구 조작 합리성, 환경 피드백 합리성, 수술 의도 합리성에서는 심각하게 부족했습니다. 이 연구는 수술 AI에서 시각적으로 설득력 있는 모방과 인과 관계 이해 사이의 간격에 대한 최초의 정량적 증거를 제공합니다. SurgVeo와 SPP를 통한 우리의 발견은 전문적이고 실제적인 의료 영역의 복잡성을 해낼 수 있는 미래 모델 개발을 위한 중요한 기반과 로드맵을 마련합니다.
English
Foundation models in video generation are demonstrating remarkable
capabilities as potential world models for simulating the physical world.
However, their application in high-stakes domains like surgery, which demand
deep, specialized causal knowledge rather than general physical rules, remains
a critical unexplored gap. To systematically address this challenge, we present
SurgVeo, the first expert-curated benchmark for video generation model
evaluation in surgery, and the Surgical Plausibility Pyramid (SPP), a novel,
four-tiered framework tailored to assess model outputs from basic appearance to
complex surgical strategy. On the basis of the SurgVeo benchmark, we task the
advanced Veo-3 model with a zero-shot prediction task on surgical clips from
laparoscopic and neurosurgical procedures. A panel of four board-certified
surgeons evaluates the generated videos according to the SPP. Our results
reveal a distinct "plausibility gap": while Veo-3 achieves exceptional Visual
Perceptual Plausibility, it fails critically at higher levels of the SPP,
including Instrument Operation Plausibility, Environment Feedback Plausibility,
and Surgical Intent Plausibility. This work provides the first quantitative
evidence of the chasm between visually convincing mimicry and causal
understanding in surgical AI. Our findings from SurgVeo and the SPP establish a
crucial foundation and roadmap for developing future models capable of
navigating the complexities of specialized, real-world healthcare domains.