Hoe Ver Zijn Chirurgen van Chirurgische Wereldmodellen Verwijderd? Een Pilootstudie naar Nulmeting-Videogeneratie in de Chirurgie met Beoordeling door Experts
How Far Are Surgeons from Surgical World Models? A Pilot Study on Zero-shot Surgical Video Generation with Expert Assessment
November 3, 2025
Auteurs: Zhen Chen, Qing Xu, Jinlin Wu, Biao Yang, Yuhao Zhai, Geng Guo, Jing Zhang, Yinlu Ding, Nassir Navab, Jiebo Luo
cs.AI
Samenvatting
Fundamentele modellen voor videogeneratie tonen opmerkelijke capaciteiten als potentiële wereldmodellen voor het simuleren van de fysieke wereld. Hun toepassing in hoog-risicodomeinen zoals chirurgie, die diepgaande, gespecialiseerde causale kennis vereisen in plaats van algemene fysieke regels, blijft echter een kritieke, onontgonnen kloof. Om deze uitdaging systematisch aan te pakken, presenteren wij SurgVeo, de eerste door experts samengestelde benchmark voor de evaluatie van videogeneratiemodellen in de chirurgie, en de Chirurgische Plausibiliteitspiramide (SPP), een nieuw, vierlaags raamwerk dat is toegesneden om modeloutputs te beoordelen, van basisappearance tot complexe chirurgische strategie. Op basis van de SurgVeo-benchmark leggen we het geavanceerde Veo-3-model een zero-shot voorspellingstaak op met chirurgische clips van laparoscopische en neurochirurgische procedures. Een panel van vier gecertificeerde chirurgen evalueert de gegenereerde video's volgens de SPP. Onze resultaten onthullen een duidelijke "plausibiliteitskloof": hoewel Veo-3 uitzonderlijke Visuele Perceptuele Plausibiliteit bereikt, faalt het kritiek op de hogere niveaus van de SPP, inclusief Instrumentbedieningsplausibiliteit, Omgevingsfeedbackplausibiliteit en Chirurgische Intentieplausibiliteit. Dit werk levert het eerste kwantitatieve bewijs van de kloof tussen visueel overtuigende nabootsing en causaal begrip in chirurgische AI. Onze bevindingen met SurgVeo en de SPP leggen een cruciaal fundament en bieden een routekaart voor de ontwikkeling van toekomstige modellen die in staat zijn de complexiteiten van gespecialiseerde, real-world gezondheidszorgdomeinen te navigeren.
English
Foundation models in video generation are demonstrating remarkable
capabilities as potential world models for simulating the physical world.
However, their application in high-stakes domains like surgery, which demand
deep, specialized causal knowledge rather than general physical rules, remains
a critical unexplored gap. To systematically address this challenge, we present
SurgVeo, the first expert-curated benchmark for video generation model
evaluation in surgery, and the Surgical Plausibility Pyramid (SPP), a novel,
four-tiered framework tailored to assess model outputs from basic appearance to
complex surgical strategy. On the basis of the SurgVeo benchmark, we task the
advanced Veo-3 model with a zero-shot prediction task on surgical clips from
laparoscopic and neurosurgical procedures. A panel of four board-certified
surgeons evaluates the generated videos according to the SPP. Our results
reveal a distinct "plausibility gap": while Veo-3 achieves exceptional Visual
Perceptual Plausibility, it fails critically at higher levels of the SPP,
including Instrument Operation Plausibility, Environment Feedback Plausibility,
and Surgical Intent Plausibility. This work provides the first quantitative
evidence of the chasm between visually convincing mimicry and causal
understanding in surgical AI. Our findings from SurgVeo and the SPP establish a
crucial foundation and roadmap for developing future models capable of
navigating the complexities of specialized, real-world healthcare domains.