Насколько хирурги близки к созданию мировых хирургических моделей? Пилотное исследование по генерации хирургических видео с нулевым обучением и экспертной оценкой
How Far Are Surgeons from Surgical World Models? A Pilot Study on Zero-shot Surgical Video Generation with Expert Assessment
November 3, 2025
Авторы: Zhen Chen, Qing Xu, Jinlin Wu, Biao Yang, Yuhao Zhai, Geng Guo, Jing Zhang, Yinlu Ding, Nassir Navab, Jiebo Luo
cs.AI
Аннотация
Фундаментальные модели в генерации видео демонстрируют впечатляющие возможности в качестве потенциальных моделей мира для симуляции физической реальности. Однако их применение в высокорисковых областях, таких как хирургия, где требуется глубокое специализированное причинно-следственное знание, а не общие физические законы, остается критически неисследованным пробелом. Для системного решения этой задачи мы представляем SurgVeo — первый курируемый экспертами бенчмарк для оценки моделей генерации видео в хирургии, и «Пирамиду хирургической правдоподобности» (СПП), новую четырехуровневую систему, предназначенную для оценки выходных данных моделей — от базовой визуализации до сложной хирургической стратегии. На основе бенчмарка SurgVeo мы ставим перед передовой моделью Veo-3 задачу прогнозирования «с нуля» на хирургических видеозаписях лапароскопических и нейрохирургических операций. Группа из четырех сертифицированных хирургов оценивает сгенерированные видео в соответствии с СПП. Наши результаты выявляют четкий «разрыв правдоподобности»: хотя Veo-3 демонстрирует исключительную визуально-перцептивную правдоподобность, она критически не справляется на более высоких уровнях СПП, включая правдоподобность работы с инструментами, правдоподобность обратной связи со средой и правдоподобность хирургического замысла. Данная работа предоставляет первые количественные свидетельства пропасти между визуально убедительной имитацией и причинно-следственным пониманием в хирургическом ИИ. Наши выводы, полученные с помощью SurgVeo и СПП, закладывают crucialную основу и определяют дорожную карту для разработки будущих моделей, способных ориентироваться в сложностях специализированных, реальных областей здравоохранения.
English
Foundation models in video generation are demonstrating remarkable
capabilities as potential world models for simulating the physical world.
However, their application in high-stakes domains like surgery, which demand
deep, specialized causal knowledge rather than general physical rules, remains
a critical unexplored gap. To systematically address this challenge, we present
SurgVeo, the first expert-curated benchmark for video generation model
evaluation in surgery, and the Surgical Plausibility Pyramid (SPP), a novel,
four-tiered framework tailored to assess model outputs from basic appearance to
complex surgical strategy. On the basis of the SurgVeo benchmark, we task the
advanced Veo-3 model with a zero-shot prediction task on surgical clips from
laparoscopic and neurosurgical procedures. A panel of four board-certified
surgeons evaluates the generated videos according to the SPP. Our results
reveal a distinct "plausibility gap": while Veo-3 achieves exceptional Visual
Perceptual Plausibility, it fails critically at higher levels of the SPP,
including Instrument Operation Plausibility, Environment Feedback Plausibility,
and Surgical Intent Plausibility. This work provides the first quantitative
evidence of the chasm between visually convincing mimicry and causal
understanding in surgical AI. Our findings from SurgVeo and the SPP establish a
crucial foundation and roadmap for developing future models capable of
navigating the complexities of specialized, real-world healthcare domains.