CarePilot: Een Multi-Agent Framework voor de Automatisering van Langdurige Computertaken in de Gezondheidszorg

Samenvatting

Multimodale agent-gebaseerde pijplijnen transformeren de mens-computerinteractie door efficiënte en toegankelijke automatisering van complexe, real-world taken mogelijk te maken. Recente inspanningen hebben zich echter gericht op kortetermijn- of algemene toepassingen (bijvoorbeeld mobiele of desktopinterfaces), waardoor langetermijnautomatisering voor domeinspecifieke systemen, met name in de gezondheidszorg, grotendeels onontgonnen blijft. Om dit aan te pakken, introduceren we CareFlow, een hoogwaardige, door mensen geannoteerde benchmark bestaande uit complexe, langetermijnsoftwareworkflows binnen medische annotatietools, DICOM-viewers, EPD-systemen en laboratoriuminformatiesystemen. Op deze benchmark presteren bestaande vision-language modellen (VLM's) slecht; ze worstelen met langetermijnredenering en meerstapsinteracties in medische contexten. Om dit te overwinnen, stellen we CarePilot voor, een multi-agent framework gebaseerd op het actor-critic paradigma. De Actor integreert tool grounding met duale geheugenmechanismen (langetermijn- en kortetermijnervaring) om de volgende semantische actie te voorspellen op basis van de visuele interface en systeemstatus. De Critic evalueert elke actie, werkt het geheugen bij op basis van waargenomen effecten, en voert de actie uit of geeft corrigerende feedback om de workflow te verfijnen. Door iteratieve agent-simulatie leert de Actor robuustere en redeneringsbewuste voorspellingen te maken tijdens inferentie. Onze experimenten tonen aan dat CarePilot state-of-the-art prestaties bereikt, en sterke closed-source en open-source multimodale baseline-modellen verslaat met respectievelijk ongeveer 15,26% en 3,38% op onze benchmark en out-of-distribution dataset.

English

Multimodal agentic pipelines are transforming human-computer interaction by enabling efficient and accessible automation of complex, real-world tasks. However, recent efforts have focused on short-horizon or general-purpose applications (e.g., mobile or desktop interfaces), leaving long-horizon automation for domain-specific systems, particularly in healthcare, largely unexplored. To address this, we introduce CareFlow, a high-quality human-annotated benchmark comprising complex, long-horizon software workflows across medical annotation tools, DICOM viewers, EHR systems, and laboratory information systems. On this benchmark, existing vision-language models (VLMs) perform poorly, struggling with long-horizon reasoning and multi-step interactions in medical contexts. To overcome this, we propose CarePilot, a multi-agent framework based on the actor-critic paradigm. The Actor integrates tool grounding with dual-memory mechanisms (long-term and short-term experience) to predict the next semantic action from the visual interface and system state. The Critic evaluates each action, updates memory based on observed effects, and either executes or provides corrective feedback to refine the workflow. Through iterative agentic simulation, the Actor learns to perform more robust and reasoning-aware predictions during inference. Our experiments show that CarePilot achieves state-of-the-art performance, outperforming strong closed-source and open-source multimodal baselines by approximately 15.26% and 3.38%, respectively, on our benchmark and out-of-distribution dataset.

CarePilot: Een Multi-Agent Framework voor de Automatisering van Langdurige Computertaken in de Gezondheidszorg

CarePilot: A Multi-Agent Framework for Long-Horizon Computer Task Automation in Healthcare

Samenvatting

Support