CHI-Bench: Podem os Agentes de IA Automatizar Fluxos de Trabalho de Saúde de Ponta a Ponta, de Longo Horizonte e Ricos em Políticas?

Resumo

Automação ponta a ponta de operações realistas de saúde enfatiza três capacidades sub-representadas nos benchmarks atuais: densidade de políticas – as decisões devem estar fundamentadas em uma ampla biblioteca de regras médicas, securitárias e operacionais; composição multirpapéis – uma única tarefa exige que o agente assuma múltiplos papéis com transições; e interação multilateral – etapas intermediárias do fluxo de trabalho consistem em diálogos de múltiplas rodadas, como revisão entre pares e contato com pacientes. Apresentamos o χ-Bench, um benchmark de fluxos de trabalho de saúde de longo horizonte em três domínios: autorização prévia de prestadores, gestão de utilização de pagadores e gestão de cuidados. Cada tarefa entrega ao agente um caso clínico em um simulador de alta fidelidade de 20 aplicativos de saúde expostos por meio de 87 ferramentas MCP, que ele deve conduzir a um status terminal por meio de chamadas de ferramentas e redação dos artefatos do papel, guiado por um manual de operações de assistência gerenciada com mais de 1.290 documentos. Em 30 configurações de agente/modelo, o melhor agente resolve apenas 28,0% das tarefas, nenhum agente ultrapassa 20% no critério rigoroso pass^3, e executar todas as tarefas em uma única sessão reduz o desempenho para 3,8%. Esses resultados levantam a hipótese de que lacunas semelhantes provavelmente surgirão em outros domínios empresariais de alta densidade de políticas, composição de papéis e irreversibilidade de processos.

English

End-to-end automation of realistic healthcare operations stresses three capabilities underrepresented in current benchmarks: policy density, decisions must be grounded in a large library of medical, insurance, and operational rules; Multi-role composition: a single task requires the agent to play multiple roles with handoffs; and multilateral interaction: intermediate workflow steps are multi-turn dialogs, such as peer-to-peer review and patient outreach. We introduce χ-Bench, a benchmark of long-horizon healthcare workflows across three domains: provider prior authorization, payer utilization management, and care management. Each task hands the agent a clinical case in a high-fidelity simulator of 20 healthcare apps exposed via 87 MCP tools, which it must drive to a terminal status through tool calls and writing the role's artifacts, guided by a 1,290+ document managed-care operations handbook skill. Across 30 agent harness/models configurations, the best agent resolves only 28.0% of tasks, no agent clears 20% on strict pass^3, and executing all tasks in a single session slumps the performance to 3.8%. These results raise the hypothesis that similar gaps are likely to surface in other policy-dense, role-composed, irreversible enterprise domains.