Articles de recherche en IA sélectionnés quotidiennement avec traductions
L'IA générative conversationnelle a démontré un potentiel remarquable pour renforcer les capacités des praticiens biomédicaux, mais les recherches actuelles se concentrent sur le texte unimodal. L'IA conversationnelle multimodale a connu des progrès rapides en exploitant des milliards de paires image-texte provenant du web public, mais ces modèles vision-langage de domaine général manquent encore de sophistication pour comprendre et discuter des images biomédicales. Dans cet article, nous proposons une approche rentable pour entraîner un assistant conversationnel vision-langage capable de répondre à des questions de recherche ouvertes sur des images biomédicales. L'idée clé est d'exploiter un jeu de données à grande échelle et à large couverture de figures-légendes biomédicales extraites de PubMed Central, d'utiliser GPT-4 pour auto-générer des données d'instructions ouvertes à partir des légendes, puis de fine-tuner un modèle vision-langage de domaine général en utilisant une nouvelle méthode d'apprentissage curriculaire. Concrètement, le modèle apprend d'abord à aligner le vocabulaire biomédical en utilisant les paires figure-légende telles quelles, puis maîtrise la sémantique conversationnelle ouverte grâce aux données d'instructions générées par GPT-4, imitant ainsi la manière dont un profane acquiert progressivement des connaissances biomédicales. Cela nous permet d'entraîner un Assistant Langage et Vision à Grande Échelle pour la Biomédecine (LLaVA-Med) en moins de 15 heures (avec huit A100). LLaVA-Med présente d'excellentes capacités conversationnelles multimodales et peut suivre des instructions ouvertes pour aider à répondre à des questions sur une image biomédicale. Sur trois jeux de données standard de question-réponse visuelle biomédicale, LLaVA-Med surpasse les précédents modèles supervisés de pointe sur certaines métriques. Pour faciliter la recherche multimodale en biomédecine, nous publierons nos données d'instructions et le modèle LLaVA-Med.
Les modèles pré-entraînés de grande envergure pour la génération d'images à partir de texte synthétisent des images impressionnantes grâce à une utilisation appropriée des invites textuelles. Cependant, les ambiguïtés inhérentes au langage naturel et les effets hors distribution rendent difficile la synthèse de styles d'images qui exploitent un motif de conception, une texture ou un matériau spécifique. Dans cet article, nous présentons StyleDrop, une méthode qui permet la synthèse d'images fidèles à un style spécifique en utilisant un modèle de génération d'images à partir de texte. La méthode proposée est extrêmement polyvalente et capture les nuances et détails d'un style fourni par l'utilisateur, tels que les schémas de couleurs, l'ombrage, les motifs de conception, ainsi que les effets locaux et globaux. Elle apprend efficacement un nouveau style en affinant très peu de paramètres entraînables (moins de 1 % des paramètres totaux du modèle) et améliore la qualité grâce à un entraînement itératif avec des retours humains ou automatisés. Mieux encore, StyleDrop est capable de produire des résultats impressionnants même lorsque l'utilisateur ne fournit qu'une seule image spécifiant le style souhaité. Une étude approfondie montre que, pour la tâche de réglage de style des modèles de génération d'images à partir de texte, StyleDrop implémenté sur Muse surpasse de manière convaincante d'autres méthodes, notamment DreamBooth et l'inversion textuelle sur Imagen ou Stable Diffusion. Plus de résultats sont disponibles sur notre site web de projet : https://styledrop.github.io.
Nous présentons un agent d'apprentissage par renforcement basé sur la valeur, que nous appelons BBF, qui atteint des performances surhumaines dans le benchmark Atari 100K. BBF repose sur la mise à l'échelle des réseaux de neurones utilisés pour l'estimation de la valeur, ainsi que sur un certain nombre de choix de conception qui permettent cette mise à l'échelle de manière efficace en termes d'échantillons. Nous menons des analyses approfondies de ces choix de conception et fournissons des insights pour les travaux futurs. Nous concluons par une discussion sur la mise à jour des objectifs pour la recherche en apprentissage par renforcement efficace en échantillons sur l'ALE. Nous mettons notre code et nos données à disposition publiquement à l'adresse suivante : https://github.com/google-research/google-research/tree/master/bigger_better_faster.
Les images générées par des modèles de diffusion comme Stable Diffusion sont de plus en plus répandues. Des travaux récents, voire des procès, ont montré que ces modèles ont tendance à reproduire leurs données d'entraînement, à l'insu de l'utilisateur. Dans cet article, nous analysons d'abord ce problème de mémorisation dans les modèles de diffusion texte-image. Bien qu'il soit largement admis que les images dupliquées dans l'ensemble d'entraînement sont responsables de la réplication de contenu au moment de l'inférence, nous observons que le conditionnement par le texte joue un rôle tout aussi important. En effet, nos expériences montrent que la réplication des données ne se produit souvent pas pour les modèles non conditionnés, alors qu'elle est fréquente dans le cas conditionné par le texte. Motivés par ces résultats, nous proposons ensuite plusieurs techniques pour réduire la réplication des données, tant pendant l'entraînement qu'à l'inférence, en randomisant et en augmentant les légendes d'images dans l'ensemble d'entraînement.
Les Transformers sont devenus la pierre angulaire des modèles de traitement du langage naturel les plus avancés, démontrant des performances exceptionnelles dans un large éventail d'applications de l'IA. Cependant, les exigences en mémoire imposées par le mécanisme d'auto-attention et le grand réseau feedforward des Transformers limitent leur capacité à gérer des séquences longues, créant ainsi des défis pour les tâches impliquant plusieurs séquences longues ou des dépendances à long terme. Nous présentons une approche distincte, le Transformer Parallèle par Blocs (BPT), qui exploite le calcul par blocs de l'auto-attention et la fusion du réseau feedforward pour minimiser les coûts en mémoire. En traitant des séquences d'entrée plus longues tout en maintenant une efficacité mémoire, BPT permet d'entraîner des séquences jusqu'à 32 fois plus longues que les Transformers classiques et 2 à 4 fois plus longues que les méthodes précédentes optimisées en mémoire. Des expériences approfondies sur des tâches de modélisation du langage et d'apprentissage par renforcement démontrent l'efficacité de BPT à réduire les besoins en mémoire et à améliorer les performances.
Compte tenu de l'ascension rapide des grands modèles de langage (LLMs), nous étudions la question suivante : (Comment) les grands modèles de langage peuvent-ils contribuer à l'examen des articles scientifiques ou des propositions de recherche ? Nous menons d'abord quelques études pilotes où nous constatons que (i) GPT-4 surpasse les autres LLMs (Bard, Vicuna, Koala, Alpaca, LLaMa, Dolly, OpenAssistant, StableLM), et (ii) l'utilisation d'une question spécifique (par exemple, pour identifier des erreurs) donne de meilleurs résultats que la simple demande de rédiger une évaluation. Forts de ces observations, nous étudions l'utilisation des LLMs (en particulier GPT-4) pour trois tâches : 1. Identification des erreurs : Nous construisons 13 courts articles en informatique, chacun contenant une erreur insérée délibérément, et demandons au LLM de vérifier l'exactitude de ces articles. Nous observons que le LLM détecte des erreurs dans 7 d'entre eux, couvrant à la fois des erreurs mathématiques et conceptuelles. 2. Vérification des listes de contrôle : Nous confions au LLM la tâche de vérifier 16 questions fermées de listes de contrôle dans les sections respectives de 15 articles de NeurIPS 2022. Nous constatons que, sur 119 paires {question de liste de contrôle, article}, le LLM atteint une précision de 86,6 %. 3. Choix du "meilleur" article : Nous générons 10 paires de résumés, en concevant délibérément chaque paire de manière à ce qu'un résumé soit clairement supérieur à l'autre. Cependant, le LLM a eu du mal à discerner ces distinctions relativement simples avec précision, commettant des erreurs dans ses évaluations pour 6 des 10 paires. Sur la base de ces expériences, nous pensons que les LLMs ont un potentiel prometteur en tant qu'assistants pour des tâches spécifiques d'examen, mais pas (encore) pour des évaluations complètes d'articles ou de propositions.
Le pré-entraînement contrastif langue-image (CLIP) se positionne comme l'une des méthodes les plus efficaces et évolutives pour entraîner des modèles de vision transférables en utilisant des données appariées d'images et de texte. Les modèles CLIP sont entraînés en utilisant une perte contrastive, qui repose généralement sur des augmentations de données pour éviter le surajustement et les raccourcis. Cependant, dans le paradigme d'entraînement de CLIP, les augmentations de données sont exclusivement appliquées aux entrées d'images, tandis que les entrées de texte restent inchangées tout au long du processus d'entraînement, limitant ainsi l'exposition à des textes divers pour la même image. Dans cet article, nous présentons LaCLIP (Language augmented CLIP), une approche simple mais très efficace pour améliorer l'entraînement de CLIP grâce à des réécritures de texte. En exploitant la capacité d'apprentissage en contexte des grands modèles de langage, nous réécrivons les descriptions textuelles associées à chaque image. Ces textes réécrits présentent une diversité dans la structure des phrases et le vocabulaire tout en préservant les concepts clés et les significations originales. Pendant l'entraînement, LaCLIP sélectionne aléatoirement soit les textes originaux, soit les versions réécrites comme augmentations de texte pour chaque image. Des expériences approfondies sur les ensembles de données CC3M, CC12M, RedCaps et LAION-400M montrent que le pré-entraînement de CLIP avec des réécritures de texte améliore significativement les performances de transfert sans surcharge de calcul ou de mémoire pendant l'entraînement. Plus précisément, pour la précision zero-shot sur ImageNet, LaCLIP surpasse CLIP de 8,2 % sur CC12M et de 2,4 % sur LAION-400M. Le code est disponible à l'adresse https://github.com/LijieFan/LaCLIP.
Ces dernières années ont vu des avancées significatives dans l'édition d'images à l'aide d'instructions textuelles. Cependant, lorsque ces éditeurs sont appliqués à la modification de scènes dynamiques, la nouvelle scène tend à manquer de cohérence temporelle en raison de la nature image par image de ces éditeurs 2D. Pour résoudre ce problème, nous proposons Control4D, une nouvelle approche pour l'édition 4D de portraits haute fidélité et cohérente dans le temps. Control4D repose sur une représentation 4D efficace associée à un éditeur basé sur la diffusion 2D. Plutôt que d'utiliser des supervisions directes de l'éditeur, notre méthode apprend un GAN 4D à partir de celui-ci et évite ainsi les signaux de supervision incohérents. Plus précisément, nous utilisons un discriminateur pour apprendre la distribution de génération à partir des images éditées, puis mettons à jour le générateur avec les signaux de discrimination. Pour un entraînement plus stable, des informations multi-niveaux sont extraites des images éditées et utilisées pour faciliter l'apprentissage du générateur. Les résultats expérimentaux montrent que Control4D surpasse les approches précédentes et atteint des performances d'édition 4D plus photoréalistes et cohérentes. Le lien vers notre site web de projet est https://control4darxiv.github.io.
L'apprentissage par renforcement hors ligne (offline RL) vise à apprendre des politiques optimales à partir de jeux de données hors ligne, où la paramétrisation des politiques est cruciale mais souvent négligée. Récemment, Diffusion-QL a considérablement amélioré les performances de l'offline RL en représentant une politique à l'aide d'un modèle de diffusion, dont le succès repose sur une chaîne de Markov paramétrée avec des centaines d'étapes pour l'échantillonnage. Cependant, Diffusion-QL souffre de deux limitations critiques. 1) Il est inefficace sur le plan computationnel de parcourir toute la chaîne de Markov en avant et en arrière pendant l'entraînement. 2) Il est incompatible avec les algorithmes de RL basés sur la vraisemblance maximale (par exemple, les méthodes de gradient de politique), car la vraisemblance des modèles de diffusion est difficile à calculer. Par conséquent, nous proposons une politique de diffusion efficace (EDP) pour surmonter ces deux défis. EDP construit approximativement des actions à partir d'actions corrompues pendant l'entraînement pour éviter d'exécuter la chaîne d'échantillonnage. Nous menons des expériences approfondies sur le benchmark D4RL. Les résultats montrent qu'EDP peut réduire le temps d'entraînement de la politique de diffusion de 5 jours à 5 heures sur les tâches de locomotion dans gym. De plus, nous montrons qu'EDP est compatible avec divers algorithmes d'offline RL (TD3, CRR et IQL) et atteint de nouveaux records sur D4RL, surpassant largement les méthodes précédentes. Notre code est disponible à l'adresse https://github.com/sail-sg/edp.
Nous présentons une approche pour reconstruire des humains et les suivre dans le temps. Au cœur de notre méthode, nous proposons une version entièrement "transformérisée" d'un réseau pour la récupération de maillage humain. Ce réseau, HMR 2.0, repousse l'état de l'art et démontre la capacité à analyser des poses inhabituelles qui, par le passé, étaient difficiles à reconstruire à partir d'images uniques. Pour analyser des vidéos, nous utilisons les reconstructions 3D de HMR 2.0 comme entrée d'un système de suivi opérant en 3D. Cela nous permet de gérer plusieurs personnes et de maintenir les identités lors d'événements d'occlusion. Notre approche complète, 4DHumans, obtient des résultats de pointe pour le suivi de personnes à partir de vidéos monoculaires. Par ailleurs, nous démontrons l'efficacité de HMR 2.0 sur la tâche aval de reconnaissance d'actions, obtenant des améliorations significatives par rapport aux approches précédentes de reconnaissance d'actions basées sur la pose. Notre code et nos modèles sont disponibles sur le site du projet : https://shubham-goel.github.io/4dhumans/.
Nous présentons "Human or Not ?", un jeu en ligne inspiré du test de Turing, qui mesure la capacité des chatbots IA à imiter les humains dans un dialogue, ainsi que celle des humains à distinguer les bots des autres humains. Au cours d'un mois, le jeu a été joué par plus de 1,5 million d'utilisateurs qui ont participé à des sessions de chat anonymes de deux minutes avec soit un autre humain, soit un modèle de langage IA incité à se comporter comme un humain. La tâche des joueurs était de deviner correctement s'ils parlaient à une personne ou à une IA. Ce test de Turing à la plus grande échelle jamais réalisé à ce jour a révélé des faits intéressants. Par exemple, dans l'ensemble, les utilisateurs ont correctement deviné l'identité de leur partenaire dans seulement 68 % des parties. Dans le sous-ensemble des parties où les utilisateurs étaient confrontés à un bot IA, les taux de devinettes correctes étaient encore plus bas, à 60 % (c'est-à-dire à peine supérieurs au hasard). Ce livre blanc détaille le développement, le déploiement et les résultats de cette expérience unique. Bien que cette expérience appelle de nombreuses extensions et améliorations, ces découvertes commencent déjà à éclairer l'inévitable avenir proche où humains et IA coexisteront.
Les grands modèles de langage (LLMs) ont démontré un succès remarquable dans un large éventail de tâches de génération de langage naturel, où la conception appropriée des prompts a un impact significatif. Alors que les méthodes de prompting existantes se limitent généralement à fournir des informations correctes, dans cet article, nous encourageons le modèle à réfléchir en proposant un nouveau cadre de prompting appelé Deliberate then Generate (DTG), qui comprend des instructions de détection d'erreurs et des candidats pouvant contenir des erreurs. DTG est une technique simple mais efficace qui peut être appliquée à diverses tâches de génération de texte avec des modifications minimales. Nous menons des expériences approfondies sur plus de 20 jeux de données couvrant 7 tâches de génération de texte, incluant la synthèse, la traduction, le dialogue, et plus encore. Nous montrons que DTG surpasse systématiquement les méthodes de prompting existantes et atteint des performances de pointe sur plusieurs tâches de génération de texte. Nous fournissons également des analyses approfondies pour révéler les mécanismes sous-jacents de DTG, ce qui pourrait inspirer des recherches futures sur le prompting pour les LLMs.
La planification procédurale, qui consiste à décomposer un objectif de haut niveau en une séquence d'étapes temporellement ordonnées, est une tâche importante mais complexe pour les machines. Elle implique l'intégration de connaissances de bon sens pour raisonner sur des situations contextualisées complexes, souvent contrefactuelles, par exemple "prendre un rendez-vous chez le médecin sans téléphone". Bien que les approches actuelles montrent des résultats encourageants en utilisant des modèles de langage de grande taille (LLMs), elles sont entravées par des inconvénients tels que des appels API coûteux et des problèmes de reproductibilité. Dans cet article, nous préconisons la planification en utilisant des modèles de langage plus petits. Nous présentons PlaSma, une nouvelle approche à double facette pour doter les petits modèles de langage de connaissances procédurales et de capacités de planification (contrefactuelles). Plus concrètement, nous développons une distillation symbolique de connaissances procédurales pour améliorer les connaissances implicites dans les petits modèles de langage et un algorithme d'inférence pour faciliter un raisonnement plus structuré et précis. En outre, nous introduisons une nouvelle tâche, la Planification Contrefactuelle, qui nécessite une révision d'un plan pour faire face à une situation contrefactuelle. Dans les contextes originaux et contrefactuels, nous montrons que des modèles d'ordres de grandeur plus petits (770M-11B paramètres) peuvent rivaliser et souvent surpasser les capacités de leurs modèles enseignants plus grands.