Wie weit sind Chirurgen von chirurgischen Weltmodellen entfernt? Eine Pilotstudie zur Null-Probe-Erzeugung chirurgischer Videos mit Expertenbewertung
How Far Are Surgeons from Surgical World Models? A Pilot Study on Zero-shot Surgical Video Generation with Expert Assessment
November 3, 2025
papers.authors: Zhen Chen, Qing Xu, Jinlin Wu, Biao Yang, Yuhao Zhai, Geng Guo, Jing Zhang, Yinlu Ding, Nassir Navab, Jiebo Luo
cs.AI
papers.abstract
Foundation Models in der Videogenerierung zeigen bemerkenswerte Fähigkeiten als potenzielle Weltmodelle zur Simulation der physischen Welt. Deren Anwendung in hochriskanten Domänen wie der Chirurgie, die tiefes, spezialisiertes Kausalwissen anstelle allgemeiner physikalischer Regeln erfordert, bleibt jedoch eine kritische, unerforschte Lücke. Um diese Herausforderung systematisch anzugehen, präsentieren wir SurgVeo, den ersten expertenkuratierten Benchmark zur Evaluierung von Videogenerierungsmodellen in der Chirurgie, und die Surgical Plausibility Pyramid (SPP), einen neuartigen, vierstufigen Bewertungsrahmen zur Beurteilung von Modelloutputs von der grundlegenden Erscheinung bis hin zur komplexen chirurgischen Strategie. Auf Basis des SurgVeo-Benchmarks beauftragen wir das fortschrittliche Veo-3-Modell mit einer Zero-Shot-Vorhersageaufgabe für chirurgische Clips aus laparoskopischen und neurochirurgischen Eingriffen. Ein Gremium von vier Fachärzten für Chirurgie bewertet die generierten Videos gemäß der SPP. Unsere Ergebnisse zeigen eine deutliche „Plausibilitätslücke“: Während Veo-3 eine außergewöhnliche Visuelle Perzeptive Plausibilität erreicht, versagt es kritisch auf höheren Ebenen der SPP, einschließlich Instrumentenbedienungsplausibilität, Umgebungsrückkopplungsplausibilität und chirurgischer Absichtsplausibilität. Diese Arbeit liefert den ersten quantitativen Nachweis für die Kluft zwischen visuell überzeugender Nachahmung und kausalem Verständnis in der chirurgischen KI. Unsere Erkenntnisse aus SurgVeo und der SPP legen eine entscheidende Grundlage und einen Fahrplan für die Entwicklung zukünftiger Modelle, die in der Lage sind, die Komplexitäten spezialisierter, realer Gesundheitsdomänen zu bewältigen.
English
Foundation models in video generation are demonstrating remarkable
capabilities as potential world models for simulating the physical world.
However, their application in high-stakes domains like surgery, which demand
deep, specialized causal knowledge rather than general physical rules, remains
a critical unexplored gap. To systematically address this challenge, we present
SurgVeo, the first expert-curated benchmark for video generation model
evaluation in surgery, and the Surgical Plausibility Pyramid (SPP), a novel,
four-tiered framework tailored to assess model outputs from basic appearance to
complex surgical strategy. On the basis of the SurgVeo benchmark, we task the
advanced Veo-3 model with a zero-shot prediction task on surgical clips from
laparoscopic and neurosurgical procedures. A panel of four board-certified
surgeons evaluates the generated videos according to the SPP. Our results
reveal a distinct "plausibility gap": while Veo-3 achieves exceptional Visual
Perceptual Plausibility, it fails critically at higher levels of the SPP,
including Instrument Operation Plausibility, Environment Feedback Plausibility,
and Surgical Intent Plausibility. This work provides the first quantitative
evidence of the chasm between visually convincing mimicry and causal
understanding in surgical AI. Our findings from SurgVeo and the SPP establish a
crucial foundation and roadmap for developing future models capable of
navigating the complexities of specialized, real-world healthcare domains.