Eine vergleichende Studie zur chirurgischen KI: Datensätze, Fundamentalmodelle und Hindernisse auf dem Weg zur Med-AGI
A Comparative Study in Surgical AI: Datasets, Foundation Models, and Barriers to Med-AGI
March 28, 2026
Autoren: Kirill Skobelev, Eric Fithian, Yegor Baranovski, Jack Cook, Sandeep Angara, Shauna Otto, Zhuang-Fang Yi, John Zhu, Daniel A. Donoho, X. Y. Han, Neeraj Mainkar, Margaux Masson-Forsythe
cs.AI
Zusammenfassung
Kürzliche KI-Modelle haben menschliche Experten in mehreren Benchmarks für biomedizinische Aufgaben übertroffen oder gleichauf gelegen, hinken jedoch bei Benchmarks zur chirurgischen Bildanalyse hinterher. Da Chirurgie die Integration unterschiedlicher Aufgaben erfordert – einschließlich multimodaler Datenintegration, menschlicher Interaktion und physischer Effekte – könnten allgemein fähige KI-Modelle als kollaboratives Werkzeug besonders attraktiv sein, wenn ihre Leistung verbessert werden könnte. Einerseits ist der kanonische Ansatz, Architekturgröße und Trainingsdaten zu skalieren, verlockend, zumal jährlich Millionen Stunden chirurgischer Videodaten generiert werden. Andererseits erfordert die Aufbereitung chirurgischer Daten für das KI-Training deutlich höhere Fachkenntnisse, und das Training mit diesen Daten benötigt teure Rechenressourcen. Diese Abwägungen zeichnen ein unsicheres Bild darüber, ob und in welchem Umfang moderne KI die chirurgische Praxis unterstützen könnte. In diesem Artikel untersuchen wir diese Frage anhand einer Fallstudie zur Erkennung chirurgischer Instrumente mit modernsten KI-Methoden des Jahres 2026. Wir zeigen, dass selbst Modelle mit Milliarden von Parametern und umfangreichem Training bei der scheinbar einfachen Aufgabe der Instrumentenerkennung in der Neurochirurgie hinterherhinken. Zudem belegen Skalierungsexperimente, dass eine Vergrößerung von Modellumfang und Trainingsdauer nur zu abnehmenden Verbesserungen relevanter Leistungskennzahlen führt. Unsere Experimente deuten somit darauf hin, dass aktuelle Modelle in chirurgischen Anwendungsfällen weiterhin auf erhebliche Hindernisse stoßen könnten. Darüber hinaus lassen sich einige Hindernisse nicht einfach durch zusätzliche Rechenleistung „wegskalieren“ und bestehen über verschiedene Modellarchitekturen hinweg fort, was die Frage aufwirft, ob Daten- und Label-Verfügbarkeit die einzigen limitierenden Faktoren sind. Wir diskutieren die Hauptursachen dieser Einschränkungen und skizzieren mögliche Lösungsansätze.
English
Recent Artificial Intelligence (AI) models have matched or exceeded human experts in several benchmarks of biomedical task performance, but have lagged behind on surgical image-analysis benchmarks. Since surgery requires integrating disparate tasks -- including multimodal data integration, human interaction, and physical effects -- generally-capable AI models could be particularly attractive as a collaborative tool if performance could be improved. On the one hand, the canonical approach of scaling architecture size and training data is attractive, especially since there are millions of hours of surgical video data generated per year. On the other hand, preparing surgical data for AI training requires significantly higher levels of professional expertise, and training on that data requires expensive computational resources. These trade-offs paint an uncertain picture of whether and to-what-extent modern AI could aid surgical practice. In this paper, we explore this question through a case study of surgical tool detection using state-of-the-art AI methods available in 2026. We demonstrate that even with multi-billion parameter models and extensive training, current Vision Language Models fall short in the seemingly simple task of tool detection in neurosurgery. Additionally, we show scaling experiments indicating that increasing model size and training time only leads to diminishing improvements in relevant performance metrics. Thus, our experiments suggest that current models could still face significant obstacles in surgical use cases. Moreover, some obstacles cannot be simply ``scaled away'' with additional compute and persist across diverse model architectures, raising the question of whether data and label availability are the only limiting factors. We discuss the main contributors to these constraints and advance potential solutions.