Сравнительное исследование в области хирургического ИИ: наборы данных, базовые модели и барьеры на пути к медицинскому ИИ общего назначения
A Comparative Study in Surgical AI: Datasets, Foundation Models, and Barriers to Med-AGI
March 28, 2026
Авторы: Kirill Skobelev, Eric Fithian, Yegor Baranovski, Jack Cook, Sandeep Angara, Shauna Otto, Zhuang-Fang Yi, John Zhu, Daniel A. Donoho, X. Y. Han, Neeraj Mainkar, Margaux Masson-Forsythe
cs.AI
Аннотация
Современные модели искусственного интеллекта (ИИ) достигли уровня человеческих экспертов или превзошли его в ряде тестов по решению биомедицинских задач, однако отстают по показателям анализа хирургических изображений. Поскольку хирургия требует интеграции разнородных задач — включая мультимодальную интеграцию данных, взаимодействие с человеком и учет физических воздействий — универсальные модели ИИ могли бы стать особенно привлекательным инструментом для совместной работы, если бы их производительность удалось повысить. С одной стороны, классический подход масштабирования размера архитектуры и объема обучающих данных выглядит перспективно, особенно учитывая, что ежегодно генерируются миллионы часов хирургических видеоданных. С другой стороны, подготовка хирургических данных для обучения ИИ требует значительно более высокой профессиональной квалификации, а их обработка — дорогостоящих вычислительных ресурсов. Эти компромиссы создают неопределенность относительно того, способен ли современный ИИ помочь хирургической практике и в какой степени. В данной статье мы исследуем этот вопрос на примере детекции хирургических инструментов с использованием передовых методов ИИ, доступных в 2026 году. Мы показываем, что даже многомиллиардные параметрические модели при длительном обучении не справляются с, казалось бы, простой задачей распознавания инструментов в нейрохирургии. Кроме того, наши эксперименты по масштабированию демонстрируют, что увеличение размера модели и продолжительности обучения приводит лишь к незначительному росту релевантных метрик производительности. Таким образом, результаты свидетельствуют, что современные модели по-прежнему сталкиваются со значительными препятствиями в хирургических сценариях. Более того, некоторые проблемы невозможно решить простым «масштабированием» за счет дополнительных вычислений — они сохраняются across различными архитектурами моделей, что ставит под сомнение, являются ли доступность данных и разметки единственными ограничивающими факторами. Мы анализируем основные причины этих ограничений и предлагаем потенциальные пути их преодоления.
English
Recent Artificial Intelligence (AI) models have matched or exceeded human experts in several benchmarks of biomedical task performance, but have lagged behind on surgical image-analysis benchmarks. Since surgery requires integrating disparate tasks -- including multimodal data integration, human interaction, and physical effects -- generally-capable AI models could be particularly attractive as a collaborative tool if performance could be improved. On the one hand, the canonical approach of scaling architecture size and training data is attractive, especially since there are millions of hours of surgical video data generated per year. On the other hand, preparing surgical data for AI training requires significantly higher levels of professional expertise, and training on that data requires expensive computational resources. These trade-offs paint an uncertain picture of whether and to-what-extent modern AI could aid surgical practice. In this paper, we explore this question through a case study of surgical tool detection using state-of-the-art AI methods available in 2026. We demonstrate that even with multi-billion parameter models and extensive training, current Vision Language Models fall short in the seemingly simple task of tool detection in neurosurgery. Additionally, we show scaling experiments indicating that increasing model size and training time only leads to diminishing improvements in relevant performance metrics. Thus, our experiments suggest that current models could still face significant obstacles in surgical use cases. Moreover, some obstacles cannot be simply ``scaled away'' with additional compute and persist across diverse model architectures, raising the question of whether data and label availability are the only limiting factors. We discuss the main contributors to these constraints and advance potential solutions.