ChatPaper.aiChatPaper

外科医は外科世界モデルからどれほど遠いのか?専門家評価を伴うゼロショット手術動画生成に関する予備的研究

How Far Are Surgeons from Surgical World Models? A Pilot Study on Zero-shot Surgical Video Generation with Expert Assessment

November 3, 2025
著者: Zhen Chen, Qing Xu, Jinlin Wu, Biao Yang, Yuhao Zhai, Geng Guo, Jing Zhang, Yinlu Ding, Nassir Navab, Jiebo Luo
cs.AI

要旨

映像生成における基盤モデルは、物理世界をシミュレートする潜在的な世界モデルとして顕著な能力を示しつつある。しかし、一般的な物理法則ではなく、専門的で深い因果関係の知識を要求する外科手術のような高リスク領域への応用は、重要な未開拓の課題として残されている。この課題に体系的に取り組むため、我々は外科手術における映像生成モデル評価のための初の専門家監修ベンチマーク「SurgVeo」、およびモデル出力を基本的外観から複雑な手術戦略まで評価するために考案された新規4段階フレームワーク「手術妥当性ピラミッド(SPP)」を提案する。SurgVeoベンチマークに基づき、高度なVeo-3モデルに、腹腔鏡下手術および脳神経外科手術の手術クリップを用いたゼロショット予測タスクを課す。4名の認定外科医からなるパネルが、SPPに従って生成された映像を評価した。結果は、明確な「妥当性の隔たり」を明らかにする:Veo-3は視覚的知覚妥当性において卓越した成績を収める一方、SPPのより高次元のレベル、すなわち器械操作妥当性、環境反応妥当性、手術意図妥当性においては決定的な失敗を示した。本研究は、外科AIにおける視覚的に説得力のある模倣と因果関係の理解との間の溝を定量的に示した初の証拠を提供する。SurgVeoとSPPからの知見は、専門的で現実的な医療領域の複雑性に対処可能な将来のモデル開発に向けた、重要な基盤とロードマップを確立するものである。
English
Foundation models in video generation are demonstrating remarkable capabilities as potential world models for simulating the physical world. However, their application in high-stakes domains like surgery, which demand deep, specialized causal knowledge rather than general physical rules, remains a critical unexplored gap. To systematically address this challenge, we present SurgVeo, the first expert-curated benchmark for video generation model evaluation in surgery, and the Surgical Plausibility Pyramid (SPP), a novel, four-tiered framework tailored to assess model outputs from basic appearance to complex surgical strategy. On the basis of the SurgVeo benchmark, we task the advanced Veo-3 model with a zero-shot prediction task on surgical clips from laparoscopic and neurosurgical procedures. A panel of four board-certified surgeons evaluates the generated videos according to the SPP. Our results reveal a distinct "plausibility gap": while Veo-3 achieves exceptional Visual Perceptual Plausibility, it fails critically at higher levels of the SPP, including Instrument Operation Plausibility, Environment Feedback Plausibility, and Surgical Intent Plausibility. This work provides the first quantitative evidence of the chasm between visually convincing mimicry and causal understanding in surgical AI. Our findings from SurgVeo and the SPP establish a crucial foundation and roadmap for developing future models capable of navigating the complexities of specialized, real-world healthcare domains.
PDF61January 19, 2026