Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons Voyager, le premier agent d'apprentissage continu incarné et alimenté par un LLM dans Minecraft, qui explore continuellement le monde, acquiert des compétences diversifiées et fait de nouvelles découvertes sans intervention humaine. Voyager se compose de trois éléments clés : 1) un curriculum automatique qui maximise l'exploration, 2) une bibliothèque de compétences en constante expansion contenant du code exécutable pour stocker et récupérer des comportements complexes, et 3) un nouveau mécanisme d'incitation itératif qui intègre les retours de l'environnement, les erreurs d'exécution et l'auto-vérification pour améliorer les programmes. Voyager interagit avec GPT-4 via des requêtes en boîte noire, ce qui évite le besoin de réglage fin des paramètres du modèle. Les compétences développées par Voyager sont temporellement étendues, interprétables et compositionnelles, ce qui accroît rapidement les capacités de l'agent et atténue l'oubli catastrophique. Empiriquement, Voyager démontre une forte capacité d'apprentissage continu en contexte et montre une maîtrise exceptionnelle dans le jeu Minecraft. Il obtient 3,3 fois plus d'objets uniques, parcourt des distances 2,3 fois plus longues et débloque les étapes clés de l'arbre technologique jusqu'à 15,3 fois plus vite que les précédents SOTA. Voyager est capable d'utiliser la bibliothèque de compétences apprises dans un nouveau monde Minecraft pour résoudre des tâches inédites à partir de zéro, tandis que d'autres techniques peinent à généraliser. Nous mettons à disposition notre codebase complète et nos incitations à l'adresse https://voyager.minedojo.org/.
Le Score Distillation Sampling (SDS) a montré un grand potentiel dans la génération de texte-à-3D en distillant des modèles de diffusion pré-entraînés à grande échelle de texte-à-image, mais souffre de problèmes de sursaturation, de lissage excessif et de faible diversité. Dans ce travail, nous proposons de modéliser le paramètre 3D comme une variable aléatoire plutôt que comme une constante comme dans le SDS, et présentons la Variational Score Distillation (VSD), un cadre variationnel basé sur des particules pour expliquer et résoudre les problèmes susmentionnés dans la génération de texte-à-3D. Nous montrons que le SDS est un cas particulier de la VSD et conduit à des échantillons de mauvaise qualité avec des poids CFG petits et grands. En comparaison, la VSD fonctionne bien avec divers poids CFG comme l'échantillonnage ancestral à partir de modèles de diffusion, et améliore simultanément la diversité et la qualité des échantillons avec un poids CFG commun (c'est-à-dire 7,5). Nous présentons également diverses améliorations dans l'espace de conception pour le texte-à-3D, telles que le calendrier de distillation et l'initialisation de la densité, qui sont orthogonales à l'algorithme de distillation mais peu explorées. Notre approche globale, baptisée ProlificDreamer, peut générer une résolution de rendu élevée (c'est-à-dire 512×512) et un NeRF de haute fidélité avec une structure riche et des effets complexes (par exemple, fumée et gouttes). De plus, initialisé à partir de NeRF, les maillages affinés par la VSD sont méticuleusement détaillés et photo-réalistes. Page du projet : https://ml.cs.tsinghua.edu.cn/prolificdreamer/
Une méthode émergente pour améliorer à moindre coût un modèle de langage moins performant consiste à l'affiner sur des sorties provenant d'un modèle plus puissant, tel qu'un système propriétaire comme ChatGPT (par exemple, Alpaca, Self-Instruct, et d'autres). Cette approche vise à imiter à moindre coût les capacités du modèle propriétaire en utilisant un modèle open-source moins performant. Dans ce travail, nous analysons de manière critique cette approche. Nous affinons d'abord une série de modèles de langage qui imitent ChatGPT en utilisant différentes tailles de modèles de base (1,5B à 13B), des sources de données variées et des quantités de données d'imitation (0,3M à 150M tokens). Nous évaluons ensuite les modèles à l'aide d'évaluateurs humains et de benchmarks NLP canoniques. Initialement, nous avons été surpris par la qualité des sorties de nos modèles d'imitation — ils semblent bien meilleurs pour suivre les instructions, et les évaluateurs humains jugent leurs sorties comme compétitives par rapport à ChatGPT. Cependant, en menant des évaluations automatiques plus ciblées, nous constatons que les modèles d'imitation réduisent peu ou pas du tout l'écart entre le modèle de base et ChatGPT sur des tâches qui ne sont pas fortement représentées dans les données d'imitation. Nous montrons que ces écarts de performance peuvent échapper aux évaluateurs humains car les modèles d'imitation sont habiles à imiter le style de ChatGPT mais pas sa factualité. Globalement, nous concluons que l'imitation de modèles est une promesse trompeuse : il existe un écart substantiel de capacités entre les modèles de langage open-source et propriétaires qui, avec les méthodes actuelles, ne peut être comblé qu'en utilisant une quantité ingérable de données d'imitation ou en utilisant des modèles de base plus performants. En conséquence, nous soutenons que l'action la plus efficace pour améliorer les modèles open-source est de relever le défi difficile de développer de meilleurs modèles de base, plutôt que de prendre le raccourci de l'imitation des systèmes propriétaires.
Les résultats exceptionnels de génération texte-image (T2I) des modèles de diffusion stable (SDMs) s'accompagnent de demandes computationnelles substantielles. Pour résoudre ce problème, les recherches récentes sur les SDMs efficaces ont priorisé la réduction du nombre d'étapes d'échantillonnage et l'utilisation de la quantification des réseaux. En complément de ces approches, cette étude met en lumière la puissance de la compression architecturale classique pour la synthèse T2I à usage général, en introduisant des SDMs avec distillation de connaissances et suppression de blocs (BK-SDMs). Nous éliminons plusieurs blocs résiduels et d'attention de l'U-Net des SDMs, obtenant ainsi une réduction de plus de 30 % du nombre de paramètres, des MACs par étape d'échantillonnage et de la latence. Nous effectuons un pré-entraînement basé sur la distillation avec seulement 0,22 million de paires LAION (moins de 0,1 % des paires d'entraînement complètes) sur un seul GPU A100. Malgré un entraînement avec des ressources limitées, nos modèles compacts peuvent imiter le SDM original en bénéficiant des connaissances transférées et obtiennent des résultats compétitifs par rapport à des modèles plus volumineux comportant plusieurs milliards de paramètres sur le benchmark zéro-shot MS-COCO. De plus, nous démontrons l'applicabilité de nos modèles pré-entraînés légers dans la génération personnalisée avec un ajustement fin via DreamBooth.
Les modèles de diffusion texte-image peuvent générer des images diverses et de haute fidélité à partir de prompts textuels fournis par l'utilisateur. Des recherches récentes ont étendu ces modèles pour prendre en charge l'édition d'images guidée par texte. Bien que le guidage par texte constitue une interface d'édition intuitive pour les utilisateurs, il échoue souvent à garantir la précision du concept transmis par ces derniers. Pour résoudre ce problème, nous proposons Custom-Edit, dans lequel nous (i) personnalisons un modèle de diffusion avec quelques images de référence, puis (ii) effectuons une édition guidée par texte. Notre découverte clé est que la personnalisation des paramètres pertinents pour le langage avec des prompts augmentés améliore significativement la similarité avec les références tout en préservant la similarité avec la source. De plus, nous fournissons notre recette pour chaque processus de personnalisation et d'édition. Nous comparons les méthodes de personnalisation populaires et validons nos résultats sur deux méthodes d'édition en utilisant divers jeux de données.
Les progrès récents en génération musicale ont été considérablement améliorés par le modèle de pointe MusicLM, qui comprend une hiérarchie de trois modèles de langage (LM), respectivement pour la modélisation sémantique, acoustique grossière et acoustique fine. Cependant, l'échantillonnage avec MusicLM nécessite de traiter ces LM un par un pour obtenir les tokens acoustiques à granularité fine, ce qui le rend coûteux en calcul et impropre à une génération en temps réel. La génération musicale efficace avec une qualité équivalente à MusicLM reste un défi majeur. Dans cet article, nous présentons MeLoDy (M pour musique ; L pour LM ; D pour diffusion), un modèle de diffusion guidé par LM qui génère des audios musicaux de qualité de pointe tout en réduisant de 95,7 % ou 99,6 % les passes avant dans MusicLM, respectivement pour l'échantillonnage de musiques de 10s ou 30s. MeLoDy hérite du LM de plus haut niveau de MusicLM pour la modélisation sémantique, et applique un nouveau modèle de diffusion à double chemin (DPD) ainsi qu'un VAE-GAN audio pour décoder efficacement les tokens sémantiques conditionnants en forme d'onde. Le DPD est proposé pour modéliser simultanément les aspects acoustiques grossiers et fins en intégrant efficacement l'information sémantique dans des segments de latents via une attention croisée à chaque étape de débruitage. Nos résultats expérimentaux suggèrent la supériorité de MeLoDy, non seulement dans ses avantages pratiques en termes de vitesse d'échantillonnage et de génération infiniment continuable, mais aussi dans sa musicalité, sa qualité audio et sa corrélation textuelle de pointe. Nos échantillons sont disponibles à l'adresse https://Efficient-MeLoDy.github.io/.
Nous présentons les Champs de Diffusion sur Variétés (MDF), une approche pour apprendre des modèles génératifs de fonctions continues définies sur des variétés riemanniennes. En s'appuyant sur des insights issus de l'analyse géométrique spectrale, nous définissons un système de coordonnées intrinsèque sur la variété via les fonctions propres de l'opérateur de Laplace-Beltrami. MDF représente les fonctions en utilisant une paramétrisation explicite formée par un ensemble de paires entrée-sortie multiples. Notre approche permet d'échantillonner des fonctions continues sur des variétés et est invariante par rapport aux transformations rigides et isométriques de la variété. Les résultats empiriques sur plusieurs jeux de données et variétés montrent que MDF peut capturer des distributions de telles fonctions avec une meilleure diversité et fidélité que les approches précédentes.
Les modèles de diffusion texte-image sont désormais capables de générer des images souvent indiscernables des images réelles. Pour générer de telles images, ces modèles doivent comprendre la sémantique des objets qu'ils sont chargés de créer. Dans ce travail, nous montrons que, sans aucun entraînement supplémentaire, il est possible d'exploiter cette connaissance sémantique au sein des modèles de diffusion pour identifier des correspondances sémantiques — des emplacements dans plusieurs images qui partagent la même signification sémantique. Plus précisément, étant donné une image, nous optimisons les embeddings de prompt de ces modèles pour maximiser l'attention sur les régions d'intérêt. Ces embeddings optimisés capturent des informations sémantiques sur l'emplacement, qui peuvent ensuite être transférées à une autre image. Grâce à cette approche, nous obtenons des résultats comparables à l'état de l'art fortement supervisé sur le jeu de données PF-Willow et surpassons significativement (20,9 % en termes relatifs pour le jeu de données SPair-71k) toute méthode faiblement supervisée ou non supervisée existante sur les jeux de données PF-Willow, CUB-200 et SPair-71k.