Étude comparative en IA chirurgicale : jeux de données, modèles de fondation et obstacles à la Med-AGI

Résumé

Les modèles récents d'intelligence artificielle (IA) ont égalé ou surpassé des experts humains dans plusieurs benchmarks de performance pour des tâches biomédicales, mais accusent un retard sur les benchmarks d'analyse d'images chirurgicales. La chirurgie nécessitant d'intégrer des tâches disparates – incluant l'intégration de données multimodales, l'interaction humaine et les effets physiques – des modèles d'IA à compétences générales pourraient s'avérer particulièrement attrayants comme outils collaboratifs si leurs performances pouvaient être améliorées. D'un côté, l'approche canonique consistant à augmenter la taille des architectures et les données d'entraînement est séduisante, d'autant plus que des millions d'heures de vidéos chirurgicales sont générées chaque année. De l'autre, la préparation des données chirurgicales pour l'entraînement de l'IA requiert des niveaux d'expertise professionnelle significativement plus élevés, et l'entraînement sur ces données nécessite des ressources computationnelles coûteuses. Ces compromis brossent un tableau incertain quant à la capacité et à la mesure dans laquelle l'IA moderne pourrait aider la pratique chirurgicale. Dans cet article, nous explorons cette question à travers une étude de cas sur la détection d'instruments chirurgicaux en utilisant les méthodes d'IA de pointe disponibles en 2026. Nous démontrons que même avec des modèles de plusieurs milliards de paramètres et un entraînement extensif, les modèles vision-langage actuels échouent dans la tâche apparemment simple de détection des instruments en neurochirurgie. De plus, nos expériences de mise à l'échelle indiquent qu'augmenter la taille des modèles et le temps d'entraînement ne conduit qu'à des améliorations marginales des métriques de performance pertinentes. Ainsi, nos expériences suggèrent que les modèles actuels pourraient encore rencontrer des obstacles significatifs dans les cas d'usage chirurgicaux. Qui plus est, certains obstacles ne peuvent être simplement « contournés par la mise à l'échelle » avec davantage de calcul et persistent à travers diverses architectures de modèles, soulevant la question de savoir si la disponibilité des données et des annotations sont les seuls facteurs limitants. Nous discutons des principales causes de ces contraintes et proposons des solutions potentielles.

English

Recent Artificial Intelligence (AI) models have matched or exceeded human experts in several benchmarks of biomedical task performance, but have lagged behind on surgical image-analysis benchmarks. Since surgery requires integrating disparate tasks -- including multimodal data integration, human interaction, and physical effects -- generally-capable AI models could be particularly attractive as a collaborative tool if performance could be improved. On the one hand, the canonical approach of scaling architecture size and training data is attractive, especially since there are millions of hours of surgical video data generated per year. On the other hand, preparing surgical data for AI training requires significantly higher levels of professional expertise, and training on that data requires expensive computational resources. These trade-offs paint an uncertain picture of whether and to-what-extent modern AI could aid surgical practice. In this paper, we explore this question through a case study of surgical tool detection using state-of-the-art AI methods available in 2026. We demonstrate that even with multi-billion parameter models and extensive training, current Vision Language Models fall short in the seemingly simple task of tool detection in neurosurgery. Additionally, we show scaling experiments indicating that increasing model size and training time only leads to diminishing improvements in relevant performance metrics. Thus, our experiments suggest that current models could still face significant obstacles in surgical use cases. Moreover, some obstacles cannot be simply ``scaled away'' with additional compute and persist across diverse model architectures, raising the question of whether data and label availability are the only limiting factors. We discuss the main contributors to these constraints and advance potential solutions.

Étude comparative en IA chirurgicale : jeux de données, modèles de fondation et obstacles à la Med-AGI

A Comparative Study in Surgical AI: Datasets, Foundation Models, and Barriers to Med-AGI

Résumé

Support