papers.description
Ces derniers mois ont vu émerger une nouvelle tendance puissante dans laquelle les grands modèles de langage (LLMs) sont augmentés pour devenir des agents linguistiques autonomes capables d'accomplir des tâches multi-étapes orientées vers un objectif de manière indépendante, plutôt que de simplement répondre aux requêtes des utilisateurs humains. Cependant, la plupart des agents linguistiques existants ne sont pas optimisés à l'aide de récompenses spécifiques à l'environnement. Bien que certains agents permettent un affinement itératif grâce à des retours verbaux, ils ne raisonnent et ne planifient pas de manière compatible avec l'apprentissage basé sur les gradients à partir de récompenses. Cet article introduit un cadre méthodologique pour renforcer les grands agents linguistiques en apprenant un modèle rétrospectif, qui ajuste automatiquement les prompts de l'agent linguistique à partir des retours de l'environnement via la méthode des gradients de politique. Plus précisément, notre architecture d'agent proposée apprend à partir de récompenses dans plusieurs environnements et tâches, pour affiner un modèle de langage pré-entraîné qui améliore le prompt de l'agent linguistique en résumant la cause racine des tentatives précédentes ayant échoué et en proposant des plans d'action. Les résultats expérimentaux sur diverses tâches démontrent que les agents linguistiques s'améliorent au fil du temps et que notre approche surpasse considérablement les méthodes de référence qui n'exploitent pas correctement les gradients provenant de l'environnement. Cela montre que l'utilisation de l'optimisation par gradients de politique pour améliorer les agents linguistiques, pour laquelle nous croyons que notre travail est l'un des premiers, semble prometteuse et peut être appliquée pour optimiser d'autres modèles dans l'architecture de l'agent afin d'améliorer les performances de l'agent au fil du temps.
Nous proposons MM-Vet, un benchmark d'évaluation qui examine les grands modèles multimodaux (LMMs) sur des tâches multimodales complexes. Les LMMs récents ont démontré diverses capacités intrigantes, telles que la résolution de problèmes mathématiques écrits au tableau, le raisonnement sur des événements et des célébrités dans des images d'actualité, et l'explication de blagues visuelles. Les avancées rapides des modèles posent des défis au développement des benchmarks d'évaluation. Les problèmes incluent : (1) Comment structurer et évaluer systématiquement les tâches multimodales complexes ; (2) Comment concevoir des métriques d'évaluation qui fonctionnent bien pour différents types de questions et de réponses ; et (3) Comment fournir des insights sur les modèles au-delà d'un simple classement de performance. À cette fin, nous présentons MM-Vet, conçu sur l'idée que la capacité intrigante à résoudre des tâches complexes est souvent atteinte par un modèle généraliste capable d'intégrer différentes compétences fondamentales en vision-langage (VL). MM-Vet définit 6 compétences fondamentales en VL et examine les 16 intégrations d'intérêt dérivées de la combinaison de ces compétences. Pour les métriques d'évaluation, nous proposons un évaluateur basé sur un LLM pour les sorties ouvertes. Cet évaluateur permet l'évaluation à travers différents types de questions et styles de réponses, aboutissant à une métrique de score unifiée. Nous évaluons des LMMs représentatifs sur MM-Vet, fournissant des insights sur les capacités des différents paradigmes et modèles de systèmes LMM. Le code et les données sont disponibles à l'adresse https://github.com/yuweihao/MM-Vet.
La segmentation à vocabulaire ouvert est une tâche complexe qui nécessite de segmenter et de reconnaître des objets à partir d'un ensemble ouvert de catégories. Une manière de relever ce défi consiste à exploiter des modèles multi-modaux, tels que CLIP, pour fournir des caractéristiques d'image et de texte dans un espace d'embedding partagé, ce qui permet de combler l'écart entre la reconnaissance à vocabulaire fermé et celle à vocabulaire ouvert. Par conséquent, les méthodes existantes adoptent souvent un cadre en deux étapes pour résoudre ce problème : les entrées passent d'abord par un générateur de masques, puis par le modèle CLIP accompagné des masques prédits. Ce processus implique l'extraction répétée de caractéristiques des images, ce qui peut être inefficace et peu performant. En revanche, nous proposons de tout intégrer dans un cadre en une seule étape en utilisant un backbone Frozen Convolutional CLIP partagé, ce qui simplifie considérablement le pipeline actuel en deux étapes et offre un meilleur compromis entre précision et coût. Le FC-CLIP proposé tire parti des observations suivantes : le backbone CLIP gelé conserve la capacité de classification à vocabulaire ouvert et peut également servir de générateur de masques robuste, et le CLIP convolutionnel se généralise bien à une résolution d'entrée plus grande que celle utilisée lors du pré-entraînement contrastif image-texte. Lors de l'entraînement sur les données panoptiques de COCO uniquement et des tests en mode zero-shot, FC-CLIP atteint 26,8 PQ, 16,8 AP et 34,1 mIoU sur ADE20K, 18,2 PQ et 27,9 mIoU sur Mapillary Vistas, 44,0 PQ, 26,8 AP et 56,2 mIoU sur Cityscapes, surpassant l'état de l'art précédent de +4,2 PQ, +2,4 AP, +4,2 mIoU sur ADE20K, +4,0 PQ sur Mapillary Vistas et +20,1 PQ sur Cityscapes, respectivement. De plus, le temps d'entraînement et de test de FC-CLIP est 7,5 fois et 6,6 fois plus rapide que le même état de l'art précédent, tout en utilisant 5,9 fois moins de paramètres. FC-CLIP établit également un nouveau record de performance sur divers ensembles de données de segmentation sémantique à vocabulaire ouvert. Code disponible à l'adresse suivante : https://github.com/bytedance/fc-clip.
L'appariement des essais cliniques est un processus clé dans la prestation des soins et la découverte médicale. En pratique, il est entravé par une masse écrasante de données non structurées et un traitement manuel non scalable. Dans cet article, nous menons une étude systématique sur la mise à l'échelle de l'appariement des essais cliniques à l'aide de grands modèles de langage (LLMs), en nous concentrant sur l'oncologie. Notre étude s'appuie sur un système d'appariement des essais cliniques actuellement en phase de test dans un grand réseau de santé américain. Les premiers résultats sont prometteurs : dès leur utilisation initiale, les LLMs de pointe, tels que GPT-4, sont déjà capables de structurer les critères d'éligibilité complexes des essais cliniques et d'extraire une logique d'appariement sophistiquée (par exemple, des imbrications de conditions ET/OU/NON). Bien qu'ils soient encore loin d'être parfaits, les LLMs surpassent nettement les précédentes méthodes de référence et peuvent servir de solution préliminaire pour aider à trier les candidats patients-essais avec une intervention humaine en boucle. Notre étude révèle également quelques domaines importants pour l'amélioration de l'application des LLMs à l'appariement end-to-end des essais cliniques, tels que les limitations de contexte et la précision, notamment dans la structuration des informations des patients à partir des dossiers médicaux longitudinaux.
Les mains robotiques biomimétiques et habiles ont le potentiel de reproduire une grande partie des tâches qu'un humain peut accomplir, et d'atteindre le statut de plateforme de manipulation générale. Les récents progrès dans les cadres d'apprentissage par renforcement (RL) ont permis d'obtenir des performances remarquables dans les tâches de locomotion quadrupède et de manipulation habile. Combinés à des simulations hautement parallélisées basées sur GPU capables de simuler des milliers de robots en parallèle, les contrôleurs basés sur RL sont devenus plus évolutifs et accessibles. Cependant, pour transposer les politiques entraînées par RL dans le monde réel, nous avons besoin de cadres de formation qui produisent des politiques compatibles avec les actionneurs et capteurs physiques, ainsi que d'une plateforme matérielle pouvant être fabriquée avec des matériaux accessibles tout en étant suffisamment robuste pour exécuter des politiques interactives. Ce travail présente la main Faive à entraînement tendineux biomimétique et son architecture système, qui utilise des articulations à contact roulant entraînées par des tendons pour réaliser une conception de main à degrés de liberté élevés, robuste et imprimable en 3D. Nous modélisons chaque élément de la main et l'intégrons dans un environnement de simulation GPU pour entraîner une politique avec RL, et parvenons à un transfert à zéro coup d'une compétence de rotation sphérique habile dans la main vers la main robotique physique.
Nous présentons les Modèles de Diffusion Compartimentés (CDM), une méthode permettant d'entraîner différents modèles de diffusion (ou prompts) sur des sources de données distinctes et de les composer arbitrairement au moment de l'inférence. Les modèles individuels peuvent être entraînés de manière isolée, à différents moments, et sur des distributions et domaines variés, puis être combinés pour atteindre des performances comparables à celles d'un modèle de référence entraîné sur toutes les données simultanément. De plus, chaque modèle ne contient que des informations sur le sous-ensemble de données auquel il a été exposé pendant l'entraînement, ce qui permet plusieurs formes de protection des données d'entraînement. En particulier, les CDM sont la première méthode à permettre à la fois l'oubli sélectif et l'apprentissage continu pour les modèles de diffusion à grande échelle, tout en permettant de servir des modèles personnalisés en fonction des droits d'accès de l'utilisateur. Les CDM permettent également de déterminer l'importance d'un sous-ensemble de données dans la génération d'échantillons particuliers.