Quão Longe Estão os Cirurgiões dos Modelos de Mundo Cirúrgico? Um Estudo Piloto sobre Geração de Vídeos Cirúrgicos *Zero-Shot* com Avaliação de Especialistas

Resumo

Os modelos de fundo em geração de vídeo estão demonstrando capacidades notáveis como modelos mundiais potenciais para simular o mundo físico. No entanto, sua aplicação em domínios de alto risco como a cirurgia, que exigem conhecimento causal profundo e especializado em vez de regras físicas gerais, permanece uma lacuna crítica não explorada. Para enfrentar sistematicamente este desafio, apresentamos o SurgVeo, o primeiro benchmark curado por especialistas para avaliação de modelos de geração de vídeo em cirurgia, e a Pirâmide de Plausibilidade Cirúrgica (PPC), uma estrutura nova e de quatro níveis adaptada para avaliar as saídas dos modelos desde a aparência básica até a estratégia cirúrgica complexa. Com base no benchmark SurgVeo, atribuímos ao modelo avançado Veo-3 uma tarefa de previsão *zero-shot* em clipes cirúrgicos de procedimentos laparoscópicos e neurocirúrgicos. Um painel de quatro cirurgiões certificados avalia os vídeos gerados de acordo com a PPC. Nossos resultados revelam uma distinta "lacuna de plausibilidade": enquanto o Veo-3 atinge uma Plausibilidade Perceptiva Visual excecional, falha criticamente em níveis superiores da PPC, incluindo a Plausibilidade da Operação de Instrumentos, a Plausibilidade do *Feedback* do Ambiente e a Plausibilidade da Intenção Cirúrgica. Este trabalho fornece a primeira evidência quantitativa do abismo entre a mímica visualmente convincente e a compreensão causal na IA cirúrgica. As nossas descobertas com o SurgVeo e a PPC estabelecem uma base e um roteiro cruciais para desenvolver modelos futuros capazes de navegar as complexidades de domínios de saúde especializados e do mundo real.

English

Foundation models in video generation are demonstrating remarkable capabilities as potential world models for simulating the physical world. However, their application in high-stakes domains like surgery, which demand deep, specialized causal knowledge rather than general physical rules, remains a critical unexplored gap. To systematically address this challenge, we present SurgVeo, the first expert-curated benchmark for video generation model evaluation in surgery, and the Surgical Plausibility Pyramid (SPP), a novel, four-tiered framework tailored to assess model outputs from basic appearance to complex surgical strategy. On the basis of the SurgVeo benchmark, we task the advanced Veo-3 model with a zero-shot prediction task on surgical clips from laparoscopic and neurosurgical procedures. A panel of four board-certified surgeons evaluates the generated videos according to the SPP. Our results reveal a distinct "plausibility gap": while Veo-3 achieves exceptional Visual Perceptual Plausibility, it fails critically at higher levels of the SPP, including Instrument Operation Plausibility, Environment Feedback Plausibility, and Surgical Intent Plausibility. This work provides the first quantitative evidence of the chasm between visually convincing mimicry and causal understanding in surgical AI. Our findings from SurgVeo and the SPP establish a crucial foundation and roadmap for developing future models capable of navigating the complexities of specialized, real-world healthcare domains.

Quão Longe Estão os Cirurgiões dos Modelos de Mundo Cirúrgico? Um Estudo Piloto sobre Geração de Vídeos Cirúrgicos Zero-Shot com Avaliação de Especialistas

How Far Are Surgeons from Surgical World Models? A Pilot Study on Zero-shot Surgical Video Generation with Expert Assessment

Resumo