Um Estudo Comparativo em IA Cirúrgica: Conjuntos de Dados, Modelos de Base e Barreiras para a Med-AGI

Resumo

Modelos recentes de Inteligência Artificial (IA) equipararam ou superaram especialistas humanos em várias referências de desempenho de tarefas biomédicas, mas ficaram aquém em benchmarks de análise de imagens cirúrgicas. Como a cirurgia requer a integração de tarefas díspares – incluindo integração de dados multimodais, interação humana e efeitos físicos – modelos de IA com capacidade geral poderiam ser particularmente atraentes como ferramenta colaborativa, se o desempenho pudesse ser melhorado. Por um lado, a abordagem canônica de escalar o tamanho da arquitetura e os dados de treinamento é atrativa, especialmente porque são gerados milhões de horas de vídeo cirúrgico por ano. Por outro lado, preparar dados cirúrgicos para treinamento de IA exige níveis significativamente mais altos de expertise profissional, e o treinamento com esses dados requer recursos computacionais caros. Esses trade-offs pintam um quadro incerto sobre se, e em que medida, a IA moderna poderia auxiliar a prática cirúrgica. Neste artigo, exploramos essa questão através de um estudo de caso de detecção de instrumentos cirúrgicos usando métodos de IA de última geração disponíveis em 2026. Demonstramos que, mesmo com modelos de múltiplos bilhões de parâmetros e treinamento extensivo, os atuais Modelos de Linguagem e Visão (Vision Language Models) ficam aquém na tarefa aparentemente simples de detecção de instrumentos em neurocirurgia. Adicionalmente, mostramos experimentos de escalabilidade que indicam que aumentar o tamanho do modelo e o tempo de treinamento leva apenas a melhorias decrescentes nas métricas de desempenho relevantes. Assim, nossos experimentos sugerem que os modelos atuais ainda podem enfrentar obstáculos significativos em casos de uso cirúrgico. Além disso, alguns obstáculos não podem ser simplesmente "resolvidos com escala" com computação adicional e persistem em diversas arquiteturas de modelo, levantando a questão de se a disponibilidade de dados e rótulos são os únicos fatores limitantes. Discutimos os principais contribuintes para essas restrições e avançamos possíveis soluções.

English

Recent Artificial Intelligence (AI) models have matched or exceeded human experts in several benchmarks of biomedical task performance, but have lagged behind on surgical image-analysis benchmarks. Since surgery requires integrating disparate tasks -- including multimodal data integration, human interaction, and physical effects -- generally-capable AI models could be particularly attractive as a collaborative tool if performance could be improved. On the one hand, the canonical approach of scaling architecture size and training data is attractive, especially since there are millions of hours of surgical video data generated per year. On the other hand, preparing surgical data for AI training requires significantly higher levels of professional expertise, and training on that data requires expensive computational resources. These trade-offs paint an uncertain picture of whether and to-what-extent modern AI could aid surgical practice. In this paper, we explore this question through a case study of surgical tool detection using state-of-the-art AI methods available in 2026. We demonstrate that even with multi-billion parameter models and extensive training, current Vision Language Models fall short in the seemingly simple task of tool detection in neurosurgery. Additionally, we show scaling experiments indicating that increasing model size and training time only leads to diminishing improvements in relevant performance metrics. Thus, our experiments suggest that current models could still face significant obstacles in surgical use cases. Moreover, some obstacles cannot be simply ``scaled away'' with additional compute and persist across diverse model architectures, raising the question of whether data and label availability are the only limiting factors. We discuss the main contributors to these constraints and advance potential solutions.