Quanto sono lontani i chirurghi dai modelli di mondo chirurgico? Uno studio pilota sulla generazione di video chirurgici zero-shot con valutazione esperta

Abstract

I modelli fondazionali nella generazione video stanno dimostrando capacità notevoli come potenziali modelli mondiali per simulare il mondo fisico. Tuttavia, la loro applicazione in domini ad alto rischio come la chirurgia, che richiedono una conoscenza causale profonda e specializzata piuttosto che regole fisiche generali, rimane un gap critico e inesplorato. Per affrontare sistematicamente questa sfida, presentiamo SurgVeo, il primo benchmark curato da esperti per la valutazione di modelli di generazione video in chirurgia, e la Piramide della Plausibilità Chirurgica (SPP), un nuovo framework a quattro livelli studiato per valutare gli output dei modelli dall'aspetto basilare alla strategia chirurgica complessa. Sulla base del benchmark SurgVeo, assegniamo al modello avanzato Veo-3 un compito di predizione zero-shot su clip chirurgiche provenienti da procedure laparoscopiche e neurochirurgiche. Un panel di quattro chirurghi certificati valuta i video generati secondo la SPP. I nostri risultati rivelano un distinto "divario di plausibilità": sebbene Veo-3 raggiunga un'eccezionale Plausibilità Percettiva Visiva, fallisce criticamente ai livelli superiori della SPP, inclusi la Plausibilità dell'Operatività Strumentale, la Plausibilità del Feedback Ambientale e la Plausibilità dell'Intento Chirurgico. Questo lavoro fornisce la prima evidenza quantitativa del divario tra una mimetizzazione visivamente convincente e la comprensione causale nell'IA chirurgica. Le nostre scoperte da SurgVeo e dalla SPP stabiliscono una base cruciale e una roadmap per sviluppare futuri modelli in grado di navigare le complessità di domini sanitari specializzati e reali.

English

Foundation models in video generation are demonstrating remarkable capabilities as potential world models for simulating the physical world. However, their application in high-stakes domains like surgery, which demand deep, specialized causal knowledge rather than general physical rules, remains a critical unexplored gap. To systematically address this challenge, we present SurgVeo, the first expert-curated benchmark for video generation model evaluation in surgery, and the Surgical Plausibility Pyramid (SPP), a novel, four-tiered framework tailored to assess model outputs from basic appearance to complex surgical strategy. On the basis of the SurgVeo benchmark, we task the advanced Veo-3 model with a zero-shot prediction task on surgical clips from laparoscopic and neurosurgical procedures. A panel of four board-certified surgeons evaluates the generated videos according to the SPP. Our results reveal a distinct "plausibility gap": while Veo-3 achieves exceptional Visual Perceptual Plausibility, it fails critically at higher levels of the SPP, including Instrument Operation Plausibility, Environment Feedback Plausibility, and Surgical Intent Plausibility. This work provides the first quantitative evidence of the chasm between visually convincing mimicry and causal understanding in surgical AI. Our findings from SurgVeo and the SPP establish a crucial foundation and roadmap for developing future models capable of navigating the complexities of specialized, real-world healthcare domains.

Quanto sono lontani i chirurghi dai modelli di mondo chirurgico? Uno studio pilota sulla generazione di video chirurgici zero-shot con valutazione esperta

How Far Are Surgeons from Surgical World Models? A Pilot Study on Zero-shot Surgical Video Generation with Expert Assessment

Abstract

Support