ChatPaper.aiChatPaper

Een vergelijkende studie in chirurgische AI: datasets, foundation-modellen en barrières voor Med-AGI

A Comparative Study in Surgical AI: Datasets, Foundation Models, and Barriers to Med-AGI

March 28, 2026
Auteurs: Kirill Skobelev, Eric Fithian, Yegor Baranovski, Jack Cook, Sandeep Angara, Shauna Otto, Zhuang-Fang Yi, John Zhu, Daniel A. Donoho, X. Y. Han, Neeraj Mainkar, Margaux Masson-Forsythe
cs.AI

Samenvatting

Recente modellen voor Kunstmatige Intelligentie (AI) hebben menselijke experts geëvenaard of overtroffen in verschillende benchmarks voor biomedische taken, maar blijven achter op benchmarks voor chirurgische beeldanalyse. Omdat chirurgie vereist dat uiteenlopende taken worden geïntegreerd – waaronder multimodale gegevensintegratie, menselijke interactie en fysieke effecten – zouden algemeen inzetbare AI-modellen bijzonder aantrekkelijk kunnen zijn als collaboratief hulpmiddel indien de prestaties verbeterd kunnen worden. Enerzijds is de klassieke aanpak van het opschalen van de architectuurgrootte en trainingsdata aantrekkelijk, vooral omdat er jaarlijks miljoenen uren aan chirurgische videogegevens worden gegenereerd. Anderzijds vereist het voorbereiden van chirurgische data voor AI-training aanzienlijk hogere niveaus van professionele expertise, en het trainen op die data vereist dure computationele middelen. Deze afwegingen schetsen een onzeker beeld of, en in hoeverre, moderne AI de chirurgische praktijk zou kunnen ondersteunen. In dit artikel onderzoeken we deze vraag via een casestudy over de detectie van chirurgisch gereedschap met behulp van state-of-the-art AI-methoden die in 2026 beschikbaar zijn. We tonen aan dat zelfs met modellen van meerdere miljarden parameters en uitgebreide training, huidige Vision Language Models tekortschieten in de ogenschijnlijk eenvoudige taak van gereedschapsdetectie in de neurochirurgie. Daarnaast tonen we schaalexperimenten die aangeven dat het vergroten van de modelgrootte en de traintijd slechts leidt tot afnemende verbeteringen in relevante prestatiemetingen. Onze experimenten suggereren dus dat huidige modellen nog steeds significante obstakels kunnen ondervinden in chirurgische toepassingen. Bovendien kunnen sommige obstakels niet eenvoudigweg worden 'weggeschaald' met extra rekenkracht en blijven ze bestaan across diverse modelarchitecturen, wat de vraag opwerpt of de beschikbaarheid van data en labels de enige beperkende factoren zijn. We bespreken de belangrijkste oorzaken van deze beperkingen en dragen mogelijke oplossingen aan.
English
Recent Artificial Intelligence (AI) models have matched or exceeded human experts in several benchmarks of biomedical task performance, but have lagged behind on surgical image-analysis benchmarks. Since surgery requires integrating disparate tasks -- including multimodal data integration, human interaction, and physical effects -- generally-capable AI models could be particularly attractive as a collaborative tool if performance could be improved. On the one hand, the canonical approach of scaling architecture size and training data is attractive, especially since there are millions of hours of surgical video data generated per year. On the other hand, preparing surgical data for AI training requires significantly higher levels of professional expertise, and training on that data requires expensive computational resources. These trade-offs paint an uncertain picture of whether and to-what-extent modern AI could aid surgical practice. In this paper, we explore this question through a case study of surgical tool detection using state-of-the-art AI methods available in 2026. We demonstrate that even with multi-billion parameter models and extensive training, current Vision Language Models fall short in the seemingly simple task of tool detection in neurosurgery. Additionally, we show scaling experiments indicating that increasing model size and training time only leads to diminishing improvements in relevant performance metrics. Thus, our experiments suggest that current models could still face significant obstacles in surgical use cases. Moreover, some obstacles cannot be simply ``scaled away'' with additional compute and persist across diverse model architectures, raising the question of whether data and label availability are the only limiting factors. We discuss the main contributors to these constraints and advance potential solutions.
PDF72April 17, 2026