papers.description
L'examen des informations encodées dans les représentations cachées des grands modèles de langage (LLM) peut expliquer le comportement des modèles et vérifier leur alignement avec les valeurs humaines. Compte tenu des capacités des LLM à générer du texte compréhensible par les humains, nous proposons d'exploiter le modèle lui-même pour expliquer ses représentations internes en langage naturel. Nous introduisons un cadre appelé Patchscopes et montrons comment il peut être utilisé pour répondre à un large éventail de questions de recherche sur le calcul d'un LLM. Nous démontrons que les méthodes d'interprétabilité antérieures, basées sur la projection des représentations dans l'espace du vocabulaire et l'intervention sur le calcul du LLM, peuvent être considérées comme des instances spécifiques de ce cadre. De plus, plusieurs de leurs limites, telles que l'échec dans l'inspection des couches précoces ou le manque d'expressivité, peuvent être atténuées par un Patchscope. Au-delà de l'unification des techniques d'inspection précédentes, Patchscopes ouvre également de nouvelles possibilités, comme l'utilisation d'un modèle plus performant pour expliquer les représentations d'un modèle plus petit, et débloque de nouvelles applications, telles que l'auto-correction dans le raisonnement multi-étapes.
Au cœur de la médecine se trouve le dialogue entre le médecin et le patient, où une anamnèse habile ouvre la voie à un diagnostic précis, une prise en charge efficace et une confiance durable. Les systèmes d'Intelligence Artificielle (IA) capables de dialoguer pour établir un diagnostic pourraient améliorer l'accessibilité, la cohérence et la qualité des soins. Cependant, approcher l'expertise des cliniciens reste un défi majeur. Nous présentons ici AMIE (Articulate Medical Intelligence Explorer), un système d'IA basé sur un modèle de langage de grande taille (LLM) optimisé pour le dialogue diagnostique. AMIE utilise un environnement simulé innovant basé sur l'auto-apprentissage, doté de mécanismes de feedback automatisés pour élargir l'apprentissage à diverses conditions pathologiques, spécialités et contextes. Nous avons conçu un cadre pour évaluer des axes de performance cliniquement pertinents, incluant l'anamnèse, la précision diagnostique, le raisonnement thérapeutique, les compétences de communication et l'empathie. Nous avons comparé les performances d'AMIE à celles de médecins généralistes dans une étude randomisée en double aveugle et en crossover, basée sur des consultations textuelles avec des acteurs-patients validés, dans le style d'un Examen Clinique Objectif Structuré (ECOS). L'étude comprenait 149 scénarios cliniques fournis par des professionnels de santé au Canada, au Royaume-Uni et en Inde, 20 médecins généralistes pour la comparaison avec AMIE, ainsi que des évaluations par des médecins spécialistes et des acteurs-patients. AMIE a démontré une plus grande précision diagnostique et une performance supérieure sur 28 des 32 axes selon les médecins spécialistes, et sur 24 des 26 axes selon les acteurs-patients. Notre recherche présente plusieurs limites et doit être interprétée avec prudence. Les cliniciens étaient limités à des échanges textuels synchrones non familiers, ce qui permet des interactions à grande échelle entre LLM et patients mais ne reflète pas la pratique clinique habituelle. Bien que des recherches supplémentaires soient nécessaires avant qu'AMIE puisse être transposé dans des contextes réels, ces résultats représentent une étape importante vers une IA conversationnelle diagnostique.
Les modèles de langage multi-modaux de grande envergure ont démontré des performances impressionnantes dans diverses tâches impliquant différentes modalités. Cependant, les modèles multi-modaux existants mettent principalement l'accent sur la capture d'informations globales au sein de chaque modalité, tout en négligeant l'importance de percevoir les informations locales à travers les modalités. Par conséquent, ces modèles manquent de la capacité à comprendre efficacement les détails fins des données d'entrée, limitant ainsi leurs performances dans les tâches nécessitant une compréhension plus nuancée. Pour remédier à cette limitation, il est impératif de développer des modèles permettant une compréhension fine à travers plusieurs modalités, améliorant ainsi leur applicabilité à un large éventail de tâches. Dans cet article, nous proposons LEGO, un modèle d'ancrage multi-modal enrichi par le langage. Au-delà de la capture d'informations globales comme les autres modèles multi-modaux, notre modèle proposé excelle dans les tâches nécessitant une compréhension détaillée des informations locales au sein des entrées. Il démontre une identification et une localisation précises de régions spécifiques dans les images ou de moments dans les vidéos. Pour atteindre cet objectif, nous concevons un pipeline de construction de données diversifié, aboutissant à un ensemble de données multi-modal et multi-granularité pour l'entraînement du modèle. Le code, l'ensemble de données et la démonstration de notre modèle sont disponibles à l'adresse suivante : https://github.com/lzw-lzw/LEGO.