CarePilot: Ein Multi-Agenten-Framework für die langfristige Automatisierung von Computeraufgaben im Gesundheitswesen

Zusammenfassung

Multimodale agentische Pipelines revolutionieren die Mensch-Computer-Interaktion, indem sie eine effiziente und zugängliche Automatisierung komplexer, realer Aufgaben ermöglichen. Bisher konzentrierten sich aktuelle Bestrebungen jedoch auf kurzzeitige oder allgemeine Anwendungen (z. B. mobile oder Desktop-Schnittstellen), wodurch die langfristige Automatisierung für domänenspezifische Systeme, insbesondere im Gesundheitswesen, weitgehend unerforscht blieb. Um dies zu adressieren, stellen wir CareFlow vor, einen hochwertigen, menschlich annotierten Benchmark, der komplexe, langfristige Software-Workflows über medizinische Annotationswerkzeuge, DICOM-Viewer, EHR-Systeme und Laborinformationssysteme hinweg umfasst. Auf diesem Benchmark schneiden bestehende Vision-Sprach-Modelle (VLMs) schlecht ab, da sie mit langfristigem Reasoning und mehrstufigen Interaktionen in medizinischen Kontexten kämpfen. Um dies zu überwinden, schlagen wir CarePilot vor, ein Multi-Agenten-Framework basierend auf dem Actor-Critic-Paradigma. Der Actor integriert Tool-Grounding mit dualen Gedächtnismechanismen (Langzeit- und Kurzzeiterfahrung), um die nächste semantische Aktion aus der visuellen Schnittstelle und dem Systemzustand vorherzusagen. Der Critic bewertet jede Aktion, aktualisiert den Speicher basierend auf beobachteten Effekten und führt die Aktion entweder aus oder gibt korrektives Feedback zur Verfeinerung des Workflows. Durch iterative agentische Simulation lernt der Actor, während des Inferenzvorgangs robustere und reasoning-bewusste Vorhersagen zu treffen. Unsere Experimente zeigen, dass CarePilot state-of-the-art Leistung erzielt und starke Closed-Source- und Open-Source-multimodale Baselines auf unserem Benchmark und Out-of-Distribution-Datensatz um etwa 15,26 % bzw. 3,38 % übertrifft.

English

Multimodal agentic pipelines are transforming human-computer interaction by enabling efficient and accessible automation of complex, real-world tasks. However, recent efforts have focused on short-horizon or general-purpose applications (e.g., mobile or desktop interfaces), leaving long-horizon automation for domain-specific systems, particularly in healthcare, largely unexplored. To address this, we introduce CareFlow, a high-quality human-annotated benchmark comprising complex, long-horizon software workflows across medical annotation tools, DICOM viewers, EHR systems, and laboratory information systems. On this benchmark, existing vision-language models (VLMs) perform poorly, struggling with long-horizon reasoning and multi-step interactions in medical contexts. To overcome this, we propose CarePilot, a multi-agent framework based on the actor-critic paradigm. The Actor integrates tool grounding with dual-memory mechanisms (long-term and short-term experience) to predict the next semantic action from the visual interface and system state. The Critic evaluates each action, updates memory based on observed effects, and either executes or provides corrective feedback to refine the workflow. Through iterative agentic simulation, the Actor learns to perform more robust and reasoning-aware predictions during inference. Our experiments show that CarePilot achieves state-of-the-art performance, outperforming strong closed-source and open-source multimodal baselines by approximately 15.26% and 3.38%, respectively, on our benchmark and out-of-distribution dataset.

CarePilot: Ein Multi-Agenten-Framework für die langfristige Automatisierung von Computeraufgaben im Gesundheitswesen

CarePilot: A Multi-Agent Framework for Long-Horizon Computer Task Automation in Healthcare

Zusammenfassung

Support