À quelle distance les chirurgiens sont-ils des modèles de monde chirurgical ? Une étude pilote sur la génération de vidéos chirurgicales en mode zéro-shot avec évaluation par des experts
How Far Are Surgeons from Surgical World Models? A Pilot Study on Zero-shot Surgical Video Generation with Expert Assessment
November 3, 2025
papers.authors: Zhen Chen, Qing Xu, Jinlin Wu, Biao Yang, Yuhao Zhai, Geng Guo, Jing Zhang, Yinlu Ding, Nassir Navab, Jiebo Luo
cs.AI
papers.abstract
Les modèles fondateurs en génération vidéo démontrent des capacités remarquables en tant que modèles du monde potentiels pour simuler le monde physique. Cependant, leur application dans des domaines à haut risque comme la chirurgie, qui exigent une connaissance causale profonde et spécialisée plutôt que des règles physiques générales, reste une lacune critique inexplorée. Pour relever systématiquement ce défi, nous présentons SurgVeo, le premier benchmark expert pour l'évaluation des modèles de génération vidéo en chirurgie, et la Pyramide de Plausibilité Chirurgicale (SPP), un nouveau cadre à quatre niveaux conçu pour évaluer les sorties des modèles, de l'apparence basique à la stratégie chirurgicale complexe. Sur la base du benchmark SurgVeo, nous confions au modèle avancé Veo-3 une tâche de prédiction zero-shot sur des séquences chirurgicales issues de procédures laparoscopiques et neurochirurgicales. Un panel de quatre chirurgiens certifiés évalue les vidéos générées selon la SPP. Nos résultats révèlent un "écart de plausibilité" distinct : si Veo-3 atteint une Plausibilité Perceptive Visuelle exceptionnelle, il échoue de manière critique aux niveaux supérieurs de la SPP, incluant la Plausibilité du Fonctionnement des Instruments, la Plausibilité de la Rétroaction Environnementale et la Plausibilité de l'Intention Chirurgicale. Ce travail fournit la première preuve quantitative du gouffre entre le mimétisme visuellement convaincant et la compréhension causale dans l'IA chirurgicale. Nos résultats issus de SurgVeo et de la SPP établissent une base cruciale et une feuille de route pour développer des modèles futurs capables de naviguer dans les complexités des domaines spécialisés des soins de santé réels.
English
Foundation models in video generation are demonstrating remarkable
capabilities as potential world models for simulating the physical world.
However, their application in high-stakes domains like surgery, which demand
deep, specialized causal knowledge rather than general physical rules, remains
a critical unexplored gap. To systematically address this challenge, we present
SurgVeo, the first expert-curated benchmark for video generation model
evaluation in surgery, and the Surgical Plausibility Pyramid (SPP), a novel,
four-tiered framework tailored to assess model outputs from basic appearance to
complex surgical strategy. On the basis of the SurgVeo benchmark, we task the
advanced Veo-3 model with a zero-shot prediction task on surgical clips from
laparoscopic and neurosurgical procedures. A panel of four board-certified
surgeons evaluates the generated videos according to the SPP. Our results
reveal a distinct "plausibility gap": while Veo-3 achieves exceptional Visual
Perceptual Plausibility, it fails critically at higher levels of the SPP,
including Instrument Operation Plausibility, Environment Feedback Plausibility,
and Surgical Intent Plausibility. This work provides the first quantitative
evidence of the chasm between visually convincing mimicry and causal
understanding in surgical AI. Our findings from SurgVeo and the SPP establish a
crucial foundation and roadmap for developing future models capable of
navigating the complexities of specialized, real-world healthcare domains.