Articles de recherche en IA sélectionnés quotidiennement avec traductions
La capacité des grands modèles de langage (LLMs) à suivre des instructions en langage naturel avec une fluidité comparable à celle des humains suggère de nombreuses opportunités dans le domaine de la santé pour réduire la charge administrative et améliorer la qualité des soins. Cependant, évaluer les LLMs sur des tâches réalistes de génération de texte pour la santé reste un défi. Les ensembles de données existants pour les questions-réponses sur les dossiers médicaux électroniques (DME) ne parviennent pas à capturer la complexité des besoins en information et des charges documentaires rencontrées par les cliniciens. Pour relever ces défis, nous introduisons MedAlign, un ensemble de données de référence comprenant 983 instructions en langage naturel pour les DME. MedAlign est élaboré par 15 cliniciens (7 spécialités), inclut des réponses de référence rédigées par des cliniciens pour 303 instructions, et fournit 276 DME longitudinaux pour ancrer les paires instruction-réponse. Nous avons utilisé MedAlign pour évaluer 6 LLMs généralistes, en demandant aux cliniciens de classer la précision et la qualité de chaque réponse des LLMs. Nous avons constaté des taux d'erreur élevés, allant de 35 % (GPT-4) à 68 % (MPT-7B-Instruct), ainsi qu'une baisse de précision de 8,3 % lors du passage d'une longueur de contexte de 32k à 2k pour GPT-4. Enfin, nous rapportons des corrélations entre les classements des cliniciens et les métriques automatisées de génération de langage naturel comme moyen de classer les LLMs sans examen humain. Nous mettons MedAlign à disposition sous un accord d'utilisation des données de recherche pour permettre l'évaluation des LLMs sur des tâches alignées sur les besoins et préférences des cliniciens.
Éviter de synthétiser des concepts visuels spécifiques constitue un défi essentiel dans la synthèse visuelle responsable. Cependant, les concepts visuels à éviter pour une synthèse visuelle responsable tendent à être divers, dépendant de la région, du contexte et des scénarios d'utilisation. Dans ce travail, nous formalisons une nouvelle tâche, la Synthèse Visuelle Responsable à Vocabulaire Ouvert (ORES), où le modèle de synthèse est capable d'éviter les concepts visuels interdits tout en permettant aux utilisateurs de saisir tout contenu souhaité. Pour résoudre ce problème, nous proposons un cadre d'Intervention en Deux Étapes (TIN). En introduisant 1) une réécriture avec des instructions apprenables via un modèle de langage à grande échelle (LLM) et 2) une synthèse avec intervention sur les prompts dans un modèle de synthèse par diffusion, il peut efficacement synthétiser des images en évitant tout concept interdit tout en suivant au maximum la requête de l'utilisateur. Pour évaluer ORES, nous fournissons un ensemble de données accessible au public, des modèles de référence et un benchmark. Les résultats expérimentaux démontrent l'efficacité de notre méthode pour réduire les risques liés à la génération d'images. Notre travail met en lumière le potentiel des LLM dans la synthèse visuelle responsable. Notre code et notre ensemble de données sont disponibles publiquement.