Estudio Comparativo en IA Quirúrgica: Conjuntos de Datos, Modelos Fundacionales y Barreras para la Med-AGI
A Comparative Study in Surgical AI: Datasets, Foundation Models, and Barriers to Med-AGI
March 28, 2026
Autores: Kirill Skobelev, Eric Fithian, Yegor Baranovski, Jack Cook, Sandeep Angara, Shauna Otto, Zhuang-Fang Yi, John Zhu, Daniel A. Donoho, X. Y. Han, Neeraj Mainkar, Margaux Masson-Forsythe
cs.AI
Resumen
Los modelos recientes de Inteligencia Artificial (IA) han igualado o superado a expertos humanos en varios puntos de referencia de desempeño de tareas biomédicas, pero se han quedado rezagados en los puntos de referencia de análisis de imágenes quirúrgicas. Dado que la cirugía requiere integrar tareas dispares —incluyendo la integración de datos multimodales, la interacción humana y los efectos físicos— los modelos de IA con capacidades generales podrían ser particularmente atractivos como herramienta de colaboración si se pudiera mejorar su rendimiento. Por un lado, el enfoque canónico de escalar el tamaño de la arquitectura y los datos de entrenamiento es atractivo, especialmente puesto que se generan millones de horas de video quirúrgico por año. Por otro lado, preparar los datos quirúrgicos para el entrenamiento de IA requiere niveles significativamente más altos de experiencia profesional, y el entrenamiento con esos datos requiere recursos computacionales costosos. Estas compensaciones pintan un panorama incierto sobre si la IA moderna podría ayudar a la práctica quirúrgica y en qué medida. En este artículo, exploramos esta pregunta mediante un estudio de caso de detección de instrumentos quirúrgicos utilizando métodos de IA de vanguardia disponibles en 2026. Demostramos que incluso con modelos de miles de millones de parámetros y entrenamiento extensivo, los Modelos de Lenguaje Visual actuales se quedan cortos en la tarea aparentemente simple de detectar instrumentos en neurocirugía. Adicionalmente, mostramos experimentos de escalado que indican que aumentar el tamaño del modelo y el tiempo de entrenamiento solo conduce a mejoras decrecientes en las métricas de rendimiento relevantes. Por lo tanto, nuestros experimentos sugieren que los modelos actuales aún podrían enfrentar obstáculos significativos en casos de uso quirúrgicos. Es más, algunos obstáculos no pueden simplemente "solucionarse con escalamiento" mediante poder computacional adicional y persisten en diversas arquitecturas de modelos, lo que plantea la pregunta de si la disponibilidad de datos y etiquetas son los únicos factores limitantes. Discutimos los principales contribuyentes a estas restricciones y proponemos soluciones potenciales.
English
Recent Artificial Intelligence (AI) models have matched or exceeded human experts in several benchmarks of biomedical task performance, but have lagged behind on surgical image-analysis benchmarks. Since surgery requires integrating disparate tasks -- including multimodal data integration, human interaction, and physical effects -- generally-capable AI models could be particularly attractive as a collaborative tool if performance could be improved. On the one hand, the canonical approach of scaling architecture size and training data is attractive, especially since there are millions of hours of surgical video data generated per year. On the other hand, preparing surgical data for AI training requires significantly higher levels of professional expertise, and training on that data requires expensive computational resources. These trade-offs paint an uncertain picture of whether and to-what-extent modern AI could aid surgical practice. In this paper, we explore this question through a case study of surgical tool detection using state-of-the-art AI methods available in 2026. We demonstrate that even with multi-billion parameter models and extensive training, current Vision Language Models fall short in the seemingly simple task of tool detection in neurosurgery. Additionally, we show scaling experiments indicating that increasing model size and training time only leads to diminishing improvements in relevant performance metrics. Thus, our experiments suggest that current models could still face significant obstacles in surgical use cases. Moreover, some obstacles cannot be simply ``scaled away'' with additional compute and persist across diverse model architectures, raising the question of whether data and label availability are the only limiting factors. We discuss the main contributors to these constraints and advance potential solutions.