Uno Studio Comparativo sull'IA Chirurgica: Dataset, Modelli Fondamentali e Ostacoli alla Med-AGI
A Comparative Study in Surgical AI: Datasets, Foundation Models, and Barriers to Med-AGI
March 28, 2026
Autori: Kirill Skobelev, Eric Fithian, Yegor Baranovski, Jack Cook, Sandeep Angara, Shauna Otto, Zhuang-Fang Yi, John Zhu, Daniel A. Donoho, X. Y. Han, Neeraj Mainkar, Margaux Masson-Forsythe
cs.AI
Abstract
I recenti modelli di intelligenza artificiale (IA) hanno eguagliato o superato esperti umani in diversi benchmark di prestazione per compiti biomedici, ma hanno mostrato ritardi nei benchmark di analisi delle immagini chirurgiche. Poiché la chirurgia richiede l'integrazione di compiti disparati – inclusa l'integrazione di dati multimodali, l'interazione umana e gli effetti fisici – modelli di IA capaci in generale potrebbero essere particolarmente attraenti come strumento collaborativo se le prestazioni potessero essere migliorate. Da un lato, l'approccio canonico di scalare le dimensioni dell'architettura e i dati di addestramento è allettante, specialmente considerando che ogni anno vengono generate milioni di ore di video chirurgici. Dall'altro lato, preparare i dati chirurgici per l'addestramento dell'IA richiede livelli significativamente più elevati di competenza professionale, e l'addestramento su tali dati richiede risorse computazionali costose. Questi compromessi dipingono un quadro incerto sul se e in quale misura l'IA moderna potrebbe aiutare la pratica chirurgica. In questo articolo, esploriamo questa questione attraverso uno studio caso sulla rilevazione di strumenti chirurgici utilizzando metodi di IA all'avanguardia disponibili nel 2026. Dimostriamo che anche con modelli da miliardi di parametri e un addestramento estensivo, gli attuali Modelli Visione-Linguaggio non riescono nel compito apparentemente semplice della rilevazione di strumenti in neurochirurgia. Inoltre, mostriamo esperimenti di scalabilità che indicano come l'aumento delle dimensioni del modello e del tempo di addestramento porti solo a miglioramenti decrescenti nelle metriche di prestazione rilevanti. Pertanto, i nostri esperimenti suggeriscono che i modelli attuali potrebbero ancora affrontare ostacoli significativi negli use case chirurgici. Inoltre, alcuni ostacoli non possono essere semplicemente "superati con la scalabilità" tramite potenza di calcolo aggiuntiva e persistono tra diverse architetture di modelli, sollevando la questione se la disponibilità di dati ed etichette siano gli unici fattori limitanti. Discutiamo i principali contributori a questi vincoli e avanziamo potenziali soluzioni.
English
Recent Artificial Intelligence (AI) models have matched or exceeded human experts in several benchmarks of biomedical task performance, but have lagged behind on surgical image-analysis benchmarks. Since surgery requires integrating disparate tasks -- including multimodal data integration, human interaction, and physical effects -- generally-capable AI models could be particularly attractive as a collaborative tool if performance could be improved. On the one hand, the canonical approach of scaling architecture size and training data is attractive, especially since there are millions of hours of surgical video data generated per year. On the other hand, preparing surgical data for AI training requires significantly higher levels of professional expertise, and training on that data requires expensive computational resources. These trade-offs paint an uncertain picture of whether and to-what-extent modern AI could aid surgical practice. In this paper, we explore this question through a case study of surgical tool detection using state-of-the-art AI methods available in 2026. We demonstrate that even with multi-billion parameter models and extensive training, current Vision Language Models fall short in the seemingly simple task of tool detection in neurosurgery. Additionally, we show scaling experiments indicating that increasing model size and training time only leads to diminishing improvements in relevant performance metrics. Thus, our experiments suggest that current models could still face significant obstacles in surgical use cases. Moreover, some obstacles cannot be simply ``scaled away'' with additional compute and persist across diverse model architectures, raising the question of whether data and label availability are the only limiting factors. We discuss the main contributors to these constraints and advance potential solutions.