CHI-Bench: Могут ли AI-агенты автоматизировать сквозные, долгосрочные, насыщенные регламентами рабочие процессы в здравоохранении?

Аннотация

Сквозная автоматизация реалистичных операций в здравоохранении подчеркивает три возможности, недостаточно представленные в современных бенчмарках: плотность регламентов — решения должны основываться на обширной библиотеке медицинских, страховых и операционных правил; многоролевая композиция — выполнение одной задачи требует от агента выполнения нескольких ролей с передачей полномочий; многостороннее взаимодействие — промежуточные этапы рабочего процесса представляют собой многократные диалоги, такие как рецензирование коллегами и работа с пациентами. Мы представляем χ-Bench — бенчмарк долгосрочных рабочих процессов здравоохранения в трех доменах: предварительное разрешение поставщика, управление использованием средств плательщика и управление уходом. Каждая задача предоставляет агенту клинический случай в симуляторе высокой точности, содержащем 20 приложений здравоохранения, доступных через 87 инструментов MCP; агент должен довести задачу до конечного состояния с помощью вызовов инструментов и создания артефактов роли, руководствуясь навыком работы с руководством по операциям управляемого медицинского обслуживания, включающим более 1 290 документов. Среди 30 конфигураций обвязок и моделей агентов лучший агент решает лишь 28,0% задач, ни один агент не преодолевает порог в 20% по строгому критерию pass^3, а выполнение всех задач в одном сеансе снижает производительность до 3,8%. Эти результаты выдвигают гипотезу о том, что аналогичные разрывы, вероятно, проявятся и в других корпоративных доменах с высокой плотностью правил, композицией ролей и необратимостью.

English

End-to-end automation of realistic healthcare operations stresses three capabilities underrepresented in current benchmarks: policy density, decisions must be grounded in a large library of medical, insurance, and operational rules; Multi-role composition: a single task requires the agent to play multiple roles with handoffs; and multilateral interaction: intermediate workflow steps are multi-turn dialogs, such as peer-to-peer review and patient outreach. We introduce χ-Bench, a benchmark of long-horizon healthcare workflows across three domains: provider prior authorization, payer utilization management, and care management. Each task hands the agent a clinical case in a high-fidelity simulator of 20 healthcare apps exposed via 87 MCP tools, which it must drive to a terminal status through tool calls and writing the role's artifacts, guided by a 1,290+ document managed-care operations handbook skill. Across 30 agent harness/models configurations, the best agent resolves only 28.0% of tasks, no agent clears 20% on strict pass^3, and executing all tasks in a single session slumps the performance to 3.8%. These results raise the hypothesis that similar gaps are likely to surface in other policy-dense, role-composed, irreversible enterprise domains.