CarePilot : Un Cadre Multi-Agent pour l'Automatisation de Tâches Informatiques à Long Terme dans le Secteur de la Santé

Résumé

Les pipelines agentiques multimodaux transforment l'interaction homme-machine en permettant l'automatisation efficace et accessible de tâches complexes du monde réel. Cependant, les efforts récents se sont concentrés sur des applications à court terme ou généralistes (par exemple, les interfaces mobiles ou de bureau), laissant l'automatisation à long terme pour les systèmes spécialisés, notamment dans le domaine de la santé, largement inexplorée. Pour remédier à cela, nous présentons CareFlow, un benchmark de haute qualité annoté manuellement, comprenant des workflows logiciels complexes et à long terme couvrant des outils d'annotation médicale, des visualiseurs DICOM, des systèmes de DSE (dossier santé électronique) et des systèmes d'information de laboratoire. Sur ce benchmark, les modèles vision-langage (VLM) existants obtiennent de mauvais résultats, peinant avec le raisonnement à long terme et les interactions multi-étapes dans des contextes médicaux. Pour surmonter cela, nous proposons CarePilot, un framework multi-agents basé sur le paradigme acteur-critique. L'Acteur intègre l'ancrage d'outils avec des mécanismes à mémoire duale (expérience à long terme et à court terme) pour prédire la prochaine action sémantique à partir de l'interface visuelle et de l'état du système. Le Critique évalue chaque action, met à jour la mémoire en fonction des effets observés, et soit exécute l'action soit fournit un retour correctif pour affiner le workflow. Grâce à une simulation agentique itérative, l'Acteur apprend à effectuer des prédictions plus robustes et conscientes du raisonnement lors de l'inférence. Nos expériences montrent que CarePilot atteint des performances de pointe, surpassant respectivement des bases de référence multimodales solides, propriétaires et open source, d'environ 15,26 % et 3,38 % sur notre benchmark et sur un jeu de données hors distribution.

English

Multimodal agentic pipelines are transforming human-computer interaction by enabling efficient and accessible automation of complex, real-world tasks. However, recent efforts have focused on short-horizon or general-purpose applications (e.g., mobile or desktop interfaces), leaving long-horizon automation for domain-specific systems, particularly in healthcare, largely unexplored. To address this, we introduce CareFlow, a high-quality human-annotated benchmark comprising complex, long-horizon software workflows across medical annotation tools, DICOM viewers, EHR systems, and laboratory information systems. On this benchmark, existing vision-language models (VLMs) perform poorly, struggling with long-horizon reasoning and multi-step interactions in medical contexts. To overcome this, we propose CarePilot, a multi-agent framework based on the actor-critic paradigm. The Actor integrates tool grounding with dual-memory mechanisms (long-term and short-term experience) to predict the next semantic action from the visual interface and system state. The Critic evaluates each action, updates memory based on observed effects, and either executes or provides corrective feedback to refine the workflow. Through iterative agentic simulation, the Actor learns to perform more robust and reasoning-aware predictions during inference. Our experiments show that CarePilot achieves state-of-the-art performance, outperforming strong closed-source and open-source multimodal baselines by approximately 15.26% and 3.38%, respectively, on our benchmark and out-of-distribution dataset.

CarePilot : Un Cadre Multi-Agent pour l'Automatisation de Tâches Informatiques à Long Terme dans le Secteur de la Santé

CarePilot: A Multi-Agent Framework for Long-Horizon Computer Task Automation in Healthcare

Résumé

Support