¿Qué tan lejos están los cirujanos de los modelos de mundo quirúrgico? Un estudio piloto sobre la generación de videos quirúrgicos con evaluación experta en entorno de cero disparos
How Far Are Surgeons from Surgical World Models? A Pilot Study on Zero-shot Surgical Video Generation with Expert Assessment
November 3, 2025
Autores: Zhen Chen, Qing Xu, Jinlin Wu, Biao Yang, Yuhao Zhai, Geng Guo, Jing Zhang, Yinlu Ding, Nassir Navab, Jiebo Luo
cs.AI
Resumen
Los modelos fundacionales en generación de vídeo están demostrando capacidades notables como modelos mundiales potenciales para simular el mundo físico. Sin embargo, su aplicación en dominios de alto riesgo como la cirugía, que exigen un conocimiento causal profundo y especializado en lugar de reglas físicas generales, sigue siendo un vacío crítico sin explorar. Para abordar sistemáticamente este desafío, presentamos SurgVeo, el primer punto de referencia curado por expertos para la evaluación de modelos de generación de vídeo en cirugía, y la Pirámide de Plausibilidad Quirúrgica (PPQ), un marco novedoso de cuatro niveles diseñado para evaluar las salidas del modelo, desde la apariencia básica hasta la estrategia quirúrgica compleja. Sobre la base del benchmark SurgVeo, asignamos al modelo avanzado Veo-3 una tarea de predicción zero-shot en clips quirúrgicos de procedimientos laparoscópicos y neuroquirúrgicos. Un panel de cuatro cirujanos certificados evalúa los vídeos generados de acuerdo con la PPQ. Nuestros resultados revelan una "brecha de plausibilidad" distintiva: mientras que Veo-3 logra una Plausibilidad Perceptiva Visual excepcional, falla críticamente en los niveles superiores de la PPQ, incluyendo la Plausibilidad de la Operación de Instrumentos, la Plausibilidad de la Retroalimentación del Entorno y la Plausibilidad de la Intención Quirúrgica. Este trabajo proporciona la primera evidencia cuantitativa del abismo entre la mímica visualmente convincente y la comprensión causal en la IA quirúrgica. Nuestros hallazgos de SurgVeo y la PPQ establecen una base y una hoja de ruta cruciales para desarrollar futuros modelos capaces de navegar las complejidades de los dominios sanitarios especializados del mundo real.
English
Foundation models in video generation are demonstrating remarkable
capabilities as potential world models for simulating the physical world.
However, their application in high-stakes domains like surgery, which demand
deep, specialized causal knowledge rather than general physical rules, remains
a critical unexplored gap. To systematically address this challenge, we present
SurgVeo, the first expert-curated benchmark for video generation model
evaluation in surgery, and the Surgical Plausibility Pyramid (SPP), a novel,
four-tiered framework tailored to assess model outputs from basic appearance to
complex surgical strategy. On the basis of the SurgVeo benchmark, we task the
advanced Veo-3 model with a zero-shot prediction task on surgical clips from
laparoscopic and neurosurgical procedures. A panel of four board-certified
surgeons evaluates the generated videos according to the SPP. Our results
reveal a distinct "plausibility gap": while Veo-3 achieves exceptional Visual
Perceptual Plausibility, it fails critically at higher levels of the SPP,
including Instrument Operation Plausibility, Environment Feedback Plausibility,
and Surgical Intent Plausibility. This work provides the first quantitative
evidence of the chasm between visually convincing mimicry and causal
understanding in surgical AI. Our findings from SurgVeo and the SPP establish a
crucial foundation and roadmap for developing future models capable of
navigating the complexities of specialized, real-world healthcare domains.