Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les modèles de diffusion dominent actuellement le domaine de la synthèse d'images basée sur les données grâce à leur capacité inégalée à s'adapter à de grands ensembles de données. Dans cet article, nous identifions et corrigeons plusieurs causes d'entraînement inégal et inefficace dans l'architecture populaire du modèle de diffusion ADM, sans modifier sa structure de haut niveau. En observant des changements de magnitude non contrôlés et des déséquilibres dans les activations et les poids du réseau au cours de l'entraînement, nous redéfinissons les couches du réseau pour préserver les magnitudes des activations, des poids et des mises à jour en moyenne. Nous constatons que l'application systématique de cette philosophie élimine les dérives et déséquilibres observés, aboutissant à des réseaux considérablement meilleurs pour une complexité computationnelle équivalente. Nos modifications améliorent le précédent record FID de 2,41 pour la synthèse d'ImageNet-512 à 1,81, atteint en utilisant un échantillonnage déterministe rapide. En tant que contribution indépendante, nous présentons une méthode pour définir les paramètres de la moyenne mobile exponentielle (EMA) a posteriori, c'est-à-dire après avoir terminé l'exécution de l'entraînement. Cela permet un réglage précis de la longueur de l'EMA sans le coût d'effectuer plusieurs exécutions d'entraînement, et révèle ses interactions surprenantes avec l'architecture du réseau, la durée d'entraînement et le guidage.
Nous présentons "ImageDream", un modèle de diffusion innovant à prompts d'images et multi-vues pour la génération d'objets 3D. ImageDream se distingue par sa capacité à produire des modèles 3D de qualité supérieure par rapport aux méthodes actuelles de pointe conditionnées par image. Notre approche utilise une coordination canonique de caméra pour les objets dans les images, améliorant la précision de la géométrie visuelle. Le modèle est conçu avec différents niveaux de contrôle à chaque bloc du modèle de diffusion en fonction de l'image d'entrée, où le contrôle global façonne la disposition générale de l'objet et le contrôle local affine les détails de l'image. L'efficacité d'ImageDream est démontrée par des évaluations approfondies utilisant une liste de prompts standard. Pour plus d'informations, visitez notre page de projet à l'adresse https://Image-Dream.github.io.
La fidélité du rééclairage est limitée par les représentations géométriques et d'apparence. Pour la géométrie, les approches basées sur des maillages et des volumes rencontrent des difficultés à modéliser des structures complexes comme la géométrie 3D des cheveux. Pour l'apparence, les modèles de rééclairage existants sont limités en fidélité et souvent trop lents pour un rendu en temps réel avec des environnements continus à haute résolution. Dans ce travail, nous présentons les Relightable Gaussian Codec Avatars, une méthode pour construire des avatars de tête rééclairables de haute fidélité pouvant être animés pour générer de nouvelles expressions. Notre modèle géométrique basé sur des Gaussiennes 3D permet de capturer des détails cohérents en 3D à l'échelle submillimétrique, tels que les mèches de cheveux et les pores sur des séquences dynamiques de visages. Pour prendre en charge de manière unifiée les différents matériaux de la tête humaine, tels que les yeux, la peau et les cheveux, nous présentons un nouveau modèle d'apparence rééclairable basé sur le transfert de radiance apprenable. En combinant cela avec des harmoniques sphériques prenant en compte l'illumination globale pour les composantes diffuses, nous obtenons un rééclairage en temps réel avec des réflexions spatiales à toutes fréquences utilisant des Gaussiennes sphériques. Ce modèle d'apparence peut être efficacement rééclairé sous une illumination ponctuelle ou continue. Nous améliorons également la fidélité des réflexions oculaires et permettons un contrôle explicite du regard en introduisant des modèles oculaires explicites rééclairables. Notre méthode surpasse les approches existantes sans compromettre les performances en temps réel. Nous démontrons également le rééclairage en temps réel d'avatars sur un casque VR grand public, mettant en avant l'efficacité et la fidélité de nos avatars.
Nous présentons X-Adapter, un adaptateur universel permettant aux modules pré-entraînés prêts à l'emploi (par exemple, ControlNet, LoRA) de fonctionner directement avec un modèle de diffusion texte-image mis à niveau (par exemple, SDXL) sans nécessiter de réentraînement supplémentaire. Nous atteignons cet objectif en entraînant un réseau supplémentaire pour contrôler le modèle mis à niveau figé avec de nouvelles paires de données texte-image. Plus précisément, X-Adapter conserve une copie figée de l'ancien modèle pour préserver les connecteurs des différents plugins. De plus, X-Adapter ajoute des couches de mappage entraînables qui relient les décodeurs des modèles de différentes versions pour le remappage des caractéristiques. Les caractéristiques remappées seront utilisées comme guide pour le modèle mis à niveau. Pour améliorer la capacité de guidage de X-Adapter, nous employons une stratégie d'entraînement par texte nul pour le modèle mis à niveau. Après l'entraînement, nous introduisons également une stratégie de débruitage en deux étapes pour aligner les latents initiaux de X-Adapter et du modèle mis à niveau. Grâce à nos stratégies, X-Adapter démontre une compatibilité universelle avec divers plugins et permet également à des plugins de différentes versions de fonctionner ensemble, élargissant ainsi les fonctionnalités de la communauté de la diffusion. Pour vérifier l'efficacité de la méthode proposée, nous menons des expériences approfondies et les résultats montrent que X-Adapter peut faciliter une application plus large dans le modèle de diffusion fondamental mis à niveau.
Les modèles de langage multimodaux de grande taille (MLLM) ont suscité un intérêt considérable en raison de leur forte capacité de compréhension multimodale. Cependant, les travaux existants reposent largement sur des encodeurs spécifiques à chaque modalité, qui diffèrent généralement en architecture et sont limités aux modalités courantes. Dans cet article, nous présentons OneLLM, un MLLM qui aligne huit modalités au langage en utilisant un cadre unifié. Nous y parvenons grâce à un encodeur multimodal unifié et à un pipeline d'alignement multimodal progressif. Plus précisément, nous commençons par entraîner un module de projection d'image pour connecter un encodeur visuel à un modèle de langage (LLM). Ensuite, nous construisons un module de projection universel (UPM) en combinant plusieurs modules de projection d'image et un routage dynamique. Enfin, nous alignons progressivement davantage de modalités au LLM avec l'UPM. Pour exploiter pleinement le potentiel de OneLLM dans le suivi d'instructions, nous avons également constitué un ensemble de données d'instructions multimodales complet, comprenant 2 millions d'éléments provenant d'images, d'audio, de vidéos, de nuages de points, de cartes de profondeur/normales, de capteurs IMU et d'activité cérébrale par IRMf. OneLLM est évalué sur 25 benchmarks diversifiés, couvrant des tâches telles que la description multimodale, la réponse à des questions et le raisonnement, où il démontre des performances excellentes. Le code, les données, le modèle et une démonstration en ligne sont disponibles à l'adresse https://github.com/csuhan/OneLLM.
Les modèles de diffusion ont récemment révolutionné le domaine de la synthèse d'images grâce à leur capacité à générer des images photoréalistes. Cependant, l'un des principaux inconvénients des modèles de diffusion est que le processus de génération d'images est coûteux. Un grand réseau image-à-image doit être appliqué de nombreuses fois pour affiner itérativement une image à partir d'un bruit aléatoire. Bien que de nombreux travaux récents proposent des techniques pour réduire le nombre d'étapes nécessaires, ils traitent généralement le réseau de débruiteur sous-jacent comme une boîte noire. Dans ce travail, nous étudions le comportement des couches au sein du réseau et constatons que 1) la sortie des couches évolue de manière fluide dans le temps, 2) les couches présentent des motifs de changement distincts, et 3) le changement d'une étape à l'autre est souvent très faible. Nous émettons l'hypothèse que de nombreux calculs de couches dans le réseau de débruiteur sont redondants. En tirant parti de cela, nous introduisons le bloc de mise en cache, dans lequel nous réutilisons les sorties des blocs de couches des étapes précédentes pour accélérer l'inférence. De plus, nous proposons une technique pour déterminer automatiquement les plans de mise en cache en fonction des changements de chaque bloc au fil des pas de temps. Dans nos expériences, nous montrons, à travers l'analyse FID, l'évaluation humaine et l'analyse qualitative, que le bloc de mise en cache permet de générer des images avec une qualité visuelle supérieure pour un coût de calcul équivalent. Nous démontrons cela pour différents modèles de pointe (LDM et EMU) et solveurs (DDIM et DPM).
Nous présentons LooseControl pour permettre un conditionnement généralisé de la profondeur dans la génération d'images basée sur la diffusion. ControlNet, l'état de l'art pour la génération d'images conditionnée par la profondeur, produit des résultats remarquables mais repose sur l'accès à des cartes de profondeur détaillées pour le guidage. La création de telles cartes de profondeur précises est, dans de nombreux scénarios, un défi. Cet article introduit une version généralisée du conditionnement de la profondeur qui permet de nombreux nouveaux workflows de création de contenu. Plus précisément, nous permettons (C1) un contrôle des limites de scène pour spécifier de manière approximative les scènes avec seulement des conditions aux limites, et (C2) un contrôle par boîtes 3D pour spécifier les emplacements de mise en page des objets cibles plutôt que leur forme et apparence exactes. En utilisant LooseControl, ainsi qu'un guidage textuel, les utilisateurs peuvent créer des environnements complexes (par exemple, des pièces, des vues de rue, etc.) en spécifiant uniquement les limites de la scène et les emplacements des objets principaux. De plus, nous proposons deux mécanismes d'édition pour affiner les résultats : (E1) L'édition de boîtes 3D permet à l'utilisateur de retoucher les images en modifiant, ajoutant ou supprimant des boîtes tout en gelant le style de l'image. Cela entraîne des changements minimaux, à part ceux induits par les boîtes éditées. (E2) L'édition d'attributs propose des directions d'édition possibles pour modifier un aspect particulier de la scène, comme la densité globale des objets ou un objet spécifique. Des tests approfondis et des comparaisons avec des méthodes de référence démontrent la généralité de notre méthode. Nous croyons que LooseControl peut devenir un outil de conception important pour créer facilement des environnements complexes et être étendu à d'autres formes de canaux de guidage. Le code et plus d'informations sont disponibles à l'adresse https://shariqfarooq123.github.io/loose-control/.
Les techniques de personnalisation pour les modèles de génération d'images à partir de texte ont ouvert la voie à une large gamme d'applications auparavant inaccessibles, permettant la génération de concepts spécifiques dans divers contextes et styles. Bien que les méthodes existantes facilitent une personnalisation de haute fidélité pour des concepts individuels ou un ensemble limité et prédéfini de ceux-ci, elles ne parviennent pas à atteindre une évolutivité où un seul modèle peut restituer de manière fluide une multitude de concepts. Dans cet article, nous abordons un nouveau problème appelé Personnalisation Modulaire, avec pour objectif de fusionner efficacement des modèles personnalisés qui ont été affinés indépendamment pour des concepts individuels. Cela permet au modèle fusionné de synthétiser conjointement des concepts dans une seule image sans compromettre la fidélité ni engendrer de coûts computationnels supplémentaires. Pour résoudre ce problème, nous introduisons l'Adaptation Orthogonale, une méthode conçue pour encourager les modèles personnalisés, qui n'ont pas accès les uns aux autres pendant l'affinage, à avoir des poids résiduels orthogonaux. Cela garantit qu'au moment de l'inférence, les modèles personnalisés peuvent être additionnés avec un minimum d'interférence. Notre méthode proposée est à la fois simple et polyvalente, applicable à presque tous les poids optimisables dans l'architecture du modèle. À travers un ensemble étendu d'évaluations quantitatives et qualitatives, notre méthode surpasse systématiquement les bases de référence pertinentes en termes d'efficacité et de préservation de l'identité, démontrant un bond significatif vers la personnalisation évolutive des modèles de diffusion.
L'édition de contenu visuel sur des vidéos reste un défi majeur, avec deux problèmes principaux : 1) un contrôle utilisateur direct et facile pour produire 2) des résultats d'édition naturels sans distorsion disgracieuse ni artefacts après modification de la forme, de l'expression et de la disposition. Inspiré par DragGAN, une technique récente d'édition de style glisser-déposer basée sur des images, nous abordons ces problèmes en proposant DragVideo, où une interaction utilisateur similaire de style glisser-déposer est adoptée pour éditer le contenu vidéo tout en maintenant la cohérence temporelle. Soutenu par les modèles de diffusion récents comme dans DragDiffusion, DragVideo intègre la nouvelle méthode d'édition Drag-on-Video U-Net (DoVe), qui optimise les latents de vidéo diffusés générés par le U-Net vidéo pour atteindre le contrôle souhaité. Plus précisément, nous utilisons un réglage fin LoRA spécifique à l'échantillon et un contrôle d'auto-attention mutuelle pour garantir une reconstruction fidèle de la vidéo à partir de la méthode DoVe. Nous présentons également une série d'exemples de test pour l'édition de vidéo de style glisser-déposer et menons des expériences approfondies sur un large éventail de tâches d'édition complexes, telles que l'édition de mouvement, l'édition de squelette, etc., mettant en avant la polyvalence et la généralité de DragVideo. Nos codes, y compris l'interface utilisateur web de DragVideo, seront publiés.
À cette époque, le succès des grands modèles de langage et des modèles de génération d'images à partir de texte peut être attribué à la force motrice des jeux de données à grande échelle. Cependant, dans le domaine de la vision 3D, bien que des progrès remarquables aient été réalisés avec des modèles entraînés sur des données d'objets synthétiques et réels à grande échelle comme Objaverse et MVImgNet, un niveau de progression similaire n'a pas été observé dans le domaine des tâches centrées sur l'humain, en partie en raison du manque d'un jeu de données humain à grande échelle. Les jeux de données existants de capture 3D humaine haute fidélité restent de taille moyenne en raison des défis importants liés à l'acquisition de données humaines 3D de haute qualité à grande échelle. Pour combler cette lacune, nous présentons MVHumanNet, un jeu de données qui comprend des séquences d'actions humaines multi-vues de 4 500 identités humaines. L'objectif principal de notre travail est de collecter des données humaines mettant en avant un grand nombre d'identités diverses et des vêtements quotidiens en utilisant un système de capture humaine multi-vues, ce qui facilite une collecte de données facilement extensible. Notre jeu de données contient 9 000 tenues quotidiennes, 60 000 séquences de mouvements et 645 millions d'images avec des annotations étendues, y compris des masques humains, des paramètres de caméra, des points clés 2D et 3D, des paramètres SMPL/SMPLX, et des descriptions textuelles correspondantes. Pour explorer le potentiel de MVHumanNet dans diverses tâches visuelles 2D et 3D, nous avons mené des études pilotes sur la reconnaissance d'actions cohérentes en vue, la reconstruction humaine NeRF, la génération d'images humaines non contraintes par la vue à partir de texte, ainsi que la génération d'images humaines 2D non contraintes par la vue et d'avatars 3D. Des expériences approfondies démontrent les améliorations de performance et les applications efficaces rendues possibles par l'échelle fournie par MVHumanNet. En tant que jeu de données humain 3D le plus vaste à ce jour, nous espérons que la publication des données MVHumanNet avec annotations stimulera davantage d'innovations dans le domaine des tâches centrées sur l'humain en 3D à grande échelle.
La modélisation basée sur les agents existe depuis des décennies et est largement appliquée dans les sciences sociales et naturelles. La portée de cette méthode de recherche est désormais sur le point de s'étendre considérablement grâce aux nouvelles possibilités offertes par les modèles de langage de grande taille (LLM). Les modèles basés sur les agents génératifs (GABM) ne sont pas simplement des modèles basés sur les agents (ABM) classiques où les agents communiquent entre eux. Au contraire, les GABM sont construits en utilisant un LLM pour appliquer le bon sens à des situations, agir de manière "raisonnable", se souvenir de connaissances sémantiques communes, produire des appels d'API pour contrôler des technologies numériques comme des applications, et communiquer à la fois au sein de la simulation et avec les chercheurs qui l'observent de l'extérieur. Nous présentons ici Concordia, une bibliothèque conçue pour faciliter la construction et l'utilisation des GABM. Concordia permet de créer facilement des simulations médiées par le langage dans des environnements physiques ou numériques. Les agents de Concordia génèrent leur comportement grâce à un système de composants flexible qui assure la médiation entre deux opérations fondamentales : les appels LLM et la récupération de mémoire associative. Un agent spécial appelé le Maître du Jeu (MJ), inspiré des jeux de rôle sur table, est responsable de simuler l'environnement dans lequel les agents interagissent. Les agents effectuent des actions en décrivant ce qu'ils souhaitent faire en langage naturel. Le MJ traduit ensuite leurs actions en implémentations appropriées. Dans un monde physique simulé, le MJ vérifie la plausibilité physique des actions des agents et décrit leurs effets. Dans des environnements numériques simulant des technologies telles que des applications et des services, le MJ peut gérer des appels d'API pour s'intégrer à des outils externes comme des assistants IA généraux (par exemple, Bard, ChatGPT) et des applications numériques (par exemple, Calendrier, Email, Recherche, etc.). Concordia a été conçu pour prendre en charge une large gamme d'applications, tant dans la recherche scientifique que pour évaluer les performances de services numériques réels en simulant des utilisateurs et/ou en générant des données synthétiques.
Les méthodes de reconstruction 3D telles que les champs de radiance neuronaux (NeRFs) excellent dans le rendu de nouvelles vues photoréalistes de scènes complexes. Cependant, la récupération d'un NeRF de haute qualité nécessite généralement des dizaines à des centaines d'images d'entrée, ce qui rend le processus de capture long et fastidieux. Nous présentons ReconFusion pour reconstruire des scènes du monde réel en utilisant seulement quelques photos. Notre approche exploite un a priori de diffusion pour la synthèse de nouvelles vues, entraîné sur des ensembles de données synthétiques et multivues, qui régularise un pipeline de reconstruction 3D basé sur NeRF pour des poses de caméra nouvelles au-delà de celles capturées par l'ensemble des images d'entrée. Notre méthode synthétise une géométrie et une texture réalistes dans les régions sous-contraintes tout en préservant l'apparence des régions observées. Nous effectuons une évaluation approfondie sur divers ensembles de données du monde réel, incluant des scènes frontales et à 360 degrés, démontrant des améliorations significatives par rapport aux approches précédentes de reconstruction NeRF avec peu de vues.
Nous proposons une méthode pour contrôler les attributs matériels des objets tels que la rugosité, le caractère métallique, l'albédo et la transparence dans des images réelles. Notre méthode exploite l'a priori génératif des modèles texte-à-image connus pour leur photoréalisme, en utilisant une valeur scalaire et des instructions pour modifier les propriétés matérielles de bas niveau. Face au manque de jeux de données avec des attributs matériels contrôlés, nous avons généré un ensemble de données synthétique centré sur les objets avec des matériaux basés sur la physique. Le fine-tuning d'un modèle texte-à-image pré-entraîné et modifié sur cet ensemble de données synthétique nous permet de modifier les propriétés matérielles dans des images du monde réel tout en préservant tous les autres attributs. Nous montrons l'application potentielle de notre modèle à des NeRFs avec des matériaux modifiés.
Récemment, des progrès significatifs ont été réalisés dans la génération de mouvements humains basée sur le texte, permettant la création de mouvements humains diversifiés et de haute qualité qui correspondent à des descriptions textuelles. Cependant, il reste difficile de générer des mouvements fins ou stylisés en raison du manque de jeux de données annotés avec des descriptions textuelles détaillées. En adoptant une stratégie de division et de conquête, nous proposons un nouveau cadre nommé Fine-Grained Human Motion Diffusion Model (FG-MDM) pour la génération de mouvements humains. Plus précisément, nous commençons par analyser les annotations textuelles vagues précédentes en descriptions fines des différentes parties du corps en exploitant un modèle de langage de grande taille (GPT-3.5). Nous utilisons ensuite ces descriptions fines pour guider un modèle de diffusion basé sur des transformateurs. FG-MDM est capable de générer des mouvements fins et stylisés, même en dehors de la distribution des données d'entraînement. Nos résultats expérimentaux démontrent la supériorité de FG-MDM par rapport aux méthodes précédentes, en particulier sa forte capacité de généralisation. Nous publierons nos annotations textuelles fines pour HumanML3D et KIT.
Notre compréhension du monde visuel s'articule autour de divers axes conceptuels, caractérisant différents aspects des entités visuelles. Bien que ces axes conceptuels puissent être facilement spécifiés par le langage, par exemple la couleur, les nuances visuelles précises le long de chaque axe dépassent souvent les limites des articulations linguistiques, comme un style de peinture particulier. Dans ce travail, notre objectif est d'apprendre une représentation visuelle des concepts informée par le langage, en distillant simplement de grands modèles vision-langage pré-entraînés. Plus précisément, nous entraînons un ensemble d'encodeurs de concepts pour encoder les informations pertinentes à un ensemble d'axes conceptuels informés par le langage, avec pour objectif de reproduire l'image d'entrée à travers un modèle texte-à-image (T2I) pré-entraîné. Pour favoriser une meilleure dissociation des différents encodeurs de concepts, nous ancrons les embeddings de concepts à un ensemble d'embeddings textuels obtenus à partir d'un modèle de réponse à des questions visuelles (VQA) pré-entraîné. Au moment de l'inférence, le modèle extrait des embeddings de concepts le long de divers axes à partir de nouvelles images de test, qui peuvent être remixées pour générer des images avec des compositions novatrices de concepts visuels. Grâce à une procédure légère de fine-tuning au moment du test, il peut également généraliser à des concepts inédits non vus lors de l'entraînement.
Les interactions avec les assistants virtuels commencent généralement par une phrase de déclenchement suivie d'une commande. Dans ce travail, nous explorons la possibilité de rendre ces interactions plus naturelles en éliminant la nécessité d'une phrase de déclenchement. Notre objectif est de déterminer si un utilisateur s'adresse à l'assistant virtuel en se basant sur des signaux obtenus à partir de l'audio en continu enregistré par le microphone de l'appareil. Nous abordons cette tâche en combinant les hypothèses 1-best et les signaux du décodeur d'un système de reconnaissance automatique de la parole avec des représentations acoustiques issues d'un encodeur audio comme caractéristiques d'entrée pour un grand modèle de langage (LLM). Nous nous intéressons particulièrement aux systèmes efficaces en termes de données et de ressources, qui nécessitent seulement une petite quantité de données d'entraînement et peuvent fonctionner dans des scénarios où un seul LLM figé est disponible sur un appareil. Pour cette raison, notre modèle est entraîné sur 80 000 exemples ou moins de données multimodales en utilisant une combinaison d'adaptation à faible rang et de réglage de préfixe. Nous comparons le système proposé à des bases de référence unimodales et montrons que l'approche multimodale atteint des taux d'erreur égaux (EER) plus faibles, tout en utilisant seulement une fraction des données d'entraînement. Nous montrons également que les représentations audio spécialisées de faible dimension conduisent à des EER plus faibles que les représentations audio générales de haute dimension.