Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les récents progrès dans la génération d'images à partir de texte ont permis des avancées remarquables dans la synthèse de photos humaines réalistes conditionnées par des descriptions textuelles. Cependant, les méthodes existantes de génération personnalisée ne parviennent pas à satisfaire simultanément les exigences de haute efficacité, de fidélité prometteuse à l'identité (ID), et de contrôle textuel flexible. Dans ce travail, nous présentons PhotoMaker, une méthode efficace de génération d'images à partir de texte personnalisée, qui encode principalement un nombre arbitraire d'images d'entrée d'ID en un embedding d'ID empilé pour préserver les informations d'identité. Cet embedding, servant de représentation unifiée de l'ID, peut non seulement encapsuler de manière exhaustive les caractéristiques du même ID d'entrée, mais aussi intégrer les caractéristiques de différents ID pour une intégration ultérieure. Cela ouvre la voie à des applications plus intrigantes et pratiquement précieuses. Par ailleurs, pour entraîner notre PhotoMaker, nous proposons un pipeline de construction de données orienté ID pour assembler les données d'entraînement. Grâce au jeu de données construit via ce pipeline, notre PhotoMaker démontre une meilleure capacité de préservation de l'ID que les méthodes basées sur le fine-tuning au moment du test, tout en offrant des améliorations significatives en termes de vitesse, des résultats de génération de haute qualité, de solides capacités de généralisation, et un large éventail d'applications. Notre page de projet est disponible à l'adresse https://photo-maker.github.io/.
La synthèse d'interactions humain-objet sémantiquement cohérentes et à long terme est essentielle pour simuler des comportements humains réalistes. Dans ce travail, nous abordons le problème complexe de générer des mouvements synchronisés d'objets et d'humains guidés par des descriptions langagières dans des scènes 3D. Nous proposons CHOIS (Controllable Human-Object Interaction Synthesis), une approche qui génère simultanément les mouvements des objets et des humains en utilisant un modèle de diffusion conditionnel, étant donné une description langagière, les états initiaux de l'objet et de l'humain, ainsi que des points de passage clés de l'objet. Alors que les descriptions langagières informent le style et l'intention, les points de passage ancrent le mouvement dans la scène et peuvent être efficacement extraits à l'aide de méthodes de planification de haut niveau. L'application naïve d'un modèle de diffusion échoue à prédire un mouvement d'objet aligné avec les points de passage en entrée et ne peut garantir le réalisme des interactions nécessitant un contact précis main-objet et un contact approprié avec le sol. Pour surmonter ces problèmes, nous introduisons une perte de géométrie de l'objet comme supervision supplémentaire pour améliorer la correspondance entre le mouvement généré de l'objet et les points de passage en entrée. De plus, nous concevons des termes de guidage pour imposer des contraintes de contact pendant le processus d'échantillonnage du modèle de diffusion entraîné.
La création de contenu 3D à partir d'une seule image est une tâche de longue date mais très souhaitable. Les avancées récentes introduisent des priors de diffusion 2D, produisant des résultats raisonnables. Cependant, les méthodes existantes ne sont pas suffisamment hyper-réalistes pour une utilisation post-génération, car les utilisateurs ne peuvent pas visualiser, rendre et éditer le contenu 3D résultant sous tous les angles. Pour relever ces défis, nous introduisons HyperDreamer avec plusieurs conceptions clés et propriétés attrayantes : 1) Visualisable : une modélisation de maillage à 360 degrés avec des textures haute résolution permet la création de modèles 3D visuellement convaincants depuis tous les points d'observation. 2) Rendu : une segmentation sémantique fine et des priors basés sur les données sont intégrés comme guide pour apprendre les propriétés raisonnables d'albedo, de rugosité et de spécularité des matériaux, permettant une estimation sémantique arbitraire des matériaux. 3) Éditable : pour un modèle généré ou leurs propres données, les utilisateurs peuvent sélectionner interactivement n'importe quelle région en quelques clics et éditer efficacement la texture avec un guidage basé sur le texte. Des expériences approfondies démontrent l'efficacité de HyperDreamer dans la modélisation de matériaux conscients des régions avec des textures haute résolution et dans l'activation d'un édition conviviale. Nous croyons que HyperDreamer promet d'avancer la création de contenu 3D et de trouver des applications dans divers domaines.
Les modèles de diffusion texte-vidéo (T2V) à grande échelle ont réalisé des progrès significatifs ces dernières années en termes de qualité visuelle, de mouvement et de cohérence temporelle. Cependant, le processus de génération reste une boîte noire, où tous les attributs (par exemple, l'apparence, le mouvement) sont appris et générés conjointement sans capacité de contrôle précise, à part des descriptions textuelles approximatives. Inspirés par l'animation d'images, qui découple la vidéo en une apparence spécifique et un mouvement correspondant, nous proposons AnimateZero pour dévoiler le modèle de diffusion texte-vidéo pré-entraîné, AnimateDiff, et lui offrir des capacités de contrôle plus précises sur l'apparence et le mouvement. Pour le contrôle de l'apparence, nous empruntons les latents intermédiaires et leurs caractéristiques issues de la génération texte-image (T2I) afin de garantir que la première image générée corresponde à l'image donnée. Pour le contrôle temporel, nous remplaçons l'attention temporelle globale du modèle T2V original par notre attention fenêtrée corrigée en position, afin d'assurer que les autres images s'alignent correctement avec la première image. Grâce aux méthodes proposées, AnimateZero peut contrôler avec succès le processus de génération sans nécessiter d'entraînement supplémentaire. En tant qu'animateur d'images zero-shot pour des images données, AnimateZero permet également de nouvelles applications, notamment la génération interactive de vidéos et l'animation d'images réelles. Les expériences détaillées démontrent l'efficacité de la méthode proposée dans les applications T2V et connexes.
L'apprentissage par renforcement (Reinforcement Learning, RL) propose un cadre polyvalent pour atteindre des objectifs à long terme. Sa généralité permet de formaliser une large gamme de problèmes rencontrés par les systèmes intelligents dans le monde réel, tels que la gestion des récompenses différées, la prise en compte de l'observabilité partielle, la résolution du dilemme exploration-exploitation, l'utilisation de données hors ligne pour améliorer les performances en ligne, et le respect des contraintes de sécurité. Malgré les progrès considérables réalisés par la communauté de recherche en RL pour aborder ces défis, les bibliothèques RL open source existantes tendent à se concentrer sur une partie restreinte du pipeline de solutions RL, laissant d'autres aspects largement négligés. Cet article présente Pearl, un logiciel d'agent RL prêt pour la production, conçu explicitement pour relever ces défis de manière modulaire. En plus de présenter des résultats préliminaires de benchmarking, cet article met en lumière les adoptions industrielles de Pearl pour démontrer son aptitude à un usage en production. Pearl est open source sur Github à l'adresse github.com/facebookresearch/pearl, et son site officiel se trouve à pearlagent.github.io.
Récemment, les modèles de diffusion ont réalisé des progrès remarquables dans la génération d'images à partir de texte (T2I), synthétisant des images avec une haute fidélité et des contenus diversifiés. Malgré cette avancée, la régularité des espaces latents au sein des modèles de diffusion reste largement inexplorée. Des espaces latents réguliers garantissent qu'une perturbation sur un latent d'entrée correspond à un changement progressif dans l'image de sortie. Cette propriété s'avère bénéfique pour les tâches en aval, incluant l'interpolation, l'inversion et l'édition d'images. Dans ce travail, nous mettons en évidence la non-régularité des espaces latents de diffusion en observant des fluctuations visuelles notables résultant de variations latentes mineures. Pour résoudre ce problème, nous proposons Smooth Diffusion, une nouvelle catégorie de modèles de diffusion qui peuvent être à la fois performants et réguliers. Plus précisément, nous introduisons une régularisation des variations étape par étape pour imposer que le rapport entre les variations d'un latent d'entrée arbitraire et celles de l'image de sortie soit constant à chaque étape de la diffusion. En outre, nous concevons une métrique d'écart-type d'interpolation (ISTD) pour évaluer efficacement la régularité de l'espace latent d'un modèle de diffusion. Des expériences quantitatives et qualitatives approfondies démontrent que Smooth Diffusion se distingue comme une solution plus désirable non seulement dans la génération T2I mais aussi dans diverses tâches en aval. Smooth Diffusion est implémenté sous forme de Smooth-LoRA plug-and-play pour fonctionner avec divers modèles communautaires. Le code est disponible à l'adresse https://github.com/SHI-Labs/Smooth-Diffusion.
Dans cette étude, nous explorons les modèles de diffusion basés sur les Transformers pour la génération d'images et de vidéos. Bien que les architectures Transformer dominent divers domaines grâce à leur flexibilité et leur évolutivité, le domaine de la génération visuelle utilise principalement des architectures U-Net basées sur les CNN, en particulier dans les modèles de diffusion. Nous présentons GenTron, une famille de modèles génératifs utilisant la diffusion basée sur les Transformers, pour combler cette lacune. Notre première étape a été d'adapter les Diffusion Transformers (DiTs) du conditionnement par classe au conditionnement par texte, un processus impliquant une exploration empirique approfondie du mécanisme de conditionnement. Nous avons ensuite mis à l'échelle GenTron d'environ 900 millions à plus de 3 milliards de paramètres, observant des améliorations significatives de la qualité visuelle. De plus, nous étendons GenTron à la génération de texte à vidéo, en intégrant une nouvelle guidance sans mouvement pour améliorer la qualité vidéo. Dans les évaluations humaines contre SDXL, GenTron atteint un taux de victoire de 51,1 % en qualité visuelle (avec un taux de match nul de 19,8 %) et un taux de victoire de 42,3 % en alignement textuel (avec un taux de match nul de 42,9 %). GenTron excelle également dans le T2I-CompBench, mettant en évidence ses forces dans la génération compositionnelle. Nous croyons que ce travail fournira des insights significatifs et servira de référence précieuse pour les recherches futures.
Nous proposons NeRFiller, une approche qui complète les parties manquantes d'une capture 3D via un inpainting génératif 3D en utilisant des modèles génératifs visuels 2D disponibles sur étagère. Souvent, certaines parties d'une scène ou d'un objet 3D capturé sont manquantes en raison d'échecs de reconstruction de maillage ou d'un manque d'observations (par exemple, les régions de contact, comme le dessous des objets, ou les zones difficiles d'accès). Nous abordons ce problème complexe d'inpainting 3D en exploitant un modèle de diffusion d'inpainting 2D. Nous identifions un comportement surprenant de ces modèles, où ils génèrent des inpaintings plus cohérents en 3D lorsque les images forment une grille 2x2, et montrons comment généraliser ce comportement à plus de quatre images. Nous présentons ensuite un cadre itératif pour distiller ces régions inpaintées en une scène 3D unique et cohérente. Contrairement aux travaux connexes, nous nous concentrons sur la complétion de scènes plutôt que sur la suppression d'objets au premier plan, et notre approche ne nécessite pas de masques 2D serrés d'objets ou de texte. Nous comparons notre approche à des bases de référence pertinentes adaptées à notre contexte sur une variété de scènes, où NeRFiller crée les complétions de scènes les plus cohérentes et plausibles en 3D. Notre page de projet est disponible à l'adresse https://ethanweber.me/nerfiller.
Récemment, les modèles de diffusion ont montré des améliorations dans la qualité des images synthétiques ainsi qu'un meilleur contrôle de la génération. Nous motivons et présentons Gen2Det, un pipeline modulaire simple pour créer gratuitement des données d'entraînement synthétiques pour la détection d'objets en exploitant les méthodes de génération d'images ancrées les plus récentes. Contrairement aux travaux existants qui génèrent des instances d'objets individuelles, nécessitant l'identification du premier plan suivie d'un collage sur d'autres images, nous simplifions en générant directement des images centrées sur des scènes. En plus des données synthétiques, Gen2Det propose également un ensemble de techniques pour exploiter au mieux les données générées, incluant le filtrage au niveau de l'image, le filtrage au niveau de l'instance, et une meilleure recette d'entraînement pour tenir compte des imperfections de la génération. En utilisant Gen2Det, nous montrons des améliorations significatives dans les tâches de détection et de segmentation d'objets dans divers contextes, indépendamment des méthodes de détection. Dans le cadre de la détection à longue traîne sur LVIS, Gen2Det améliore considérablement les performances sur les catégories rares tout en améliorant également de manière significative les performances sur les autres catégories, par exemple, nous observons une amélioration de 2,13 AP en boîte et 1,84 AP en masque par rapport à l'entraînement uniquement sur des données réelles avec Mask R-CNN sur LVIS. Dans le régime de faible quantité de données sur COCO, Gen2Det améliore systématiquement les AP en boîte et en masque de 2,27 et 1,85 points respectivement. Dans le cadre le plus général de la détection, Gen2Det démontre toujours des gains de performance robustes, par exemple, il améliore les AP en boîte et en masque sur COCO de 0,45 et 0,32 points respectivement.
La génération personnalisée utilisant des modèles de diffusion a réalisé des progrès impressionnants dans la génération d'images, mais reste insatisfaisante dans la tâche complexe de génération de vidéos, car elle nécessite un contrôle à la fois des sujets et des mouvements. Pour cela, nous présentons DreamVideo, une nouvelle approche pour générer des vidéos personnalisées à partir de quelques images statiques du sujet souhaité et de quelques vidéos du mouvement cible. DreamVideo décompose cette tâche en deux étapes, l'apprentissage du sujet et l'apprentissage du mouvement, en exploitant un modèle de diffusion vidéo pré-entraîné. L'apprentissage du sujet vise à capturer avec précision l'apparence fine du sujet à partir des images fournies, ce qui est réalisé en combinant l'inversion textuelle et le réglage fin de notre adaptateur d'identité soigneusement conçu. Dans l'apprentissage du mouvement, nous concevons un adaptateur de mouvement et l'affinons sur les vidéos données pour modéliser efficacement le modèle de mouvement cible. La combinaison de ces deux adaptateurs légers et efficaces permet une personnalisation flexible de tout sujet avec n'importe quel mouvement. Les résultats expérimentaux approfondis démontrent la performance supérieure de notre DreamVideo par rapport aux méthodes de pointe pour la génération de vidéos personnalisées. Notre page de projet est disponible à l'adresse https://dreamvideo-t2v.github.io.
Les avancées récentes significatives dans les modèles de génération d'images à partir de texte ouvrent la possibilité d'entraîner des systèmes de vision par ordinateur en utilisant des images synthétiques, surmontant potentiellement la difficulté de collecter des données annotées à grande échelle. Cependant, il reste incertain comment ces modèles se comportent à grande échelle lorsque davantage de données synthétiques sont ajoutées à l'ensemble d'entraînement. Dans cet article, nous étudions les lois d'échelle des images synthétiques générées par des modèles de pointe de génération d'images à partir de texte, pour l'entraînement de modèles supervisés : des classificateurs d'images avec supervision par étiquettes, et CLIP avec supervision linguistique. Nous identifions plusieurs facteurs, notamment les prompts textuels, l'échelle de guidance sans classificateur, et les types de modèles de génération d'images à partir de texte, qui influencent significativement le comportement d'échelle. Après avoir ajusté ces facteurs, nous observons que les images synthétiques présentent une tendance d'échelle similaire, mais légèrement moins efficace, à celle des images réelles dans l'entraînement de CLIP, tandis qu'elles sous-performent significativement en termes d'échelle lors de l'entraînement de classificateurs d'images supervisés. Notre analyse indique que la principale raison de cette sous-performance est l'incapacité des modèles de génération d'images à partir de texte disponibles sur le marché à générer certains concepts, une limitation qui affecte significativement l'entraînement des classificateurs d'images. Nos résultats suggèrent également que l'échelle des données synthétiques peut être particulièrement efficace dans des scénarios tels que : (1) lorsqu'il y a une offre limitée d'images réelles pour un problème supervisé (par exemple, moins de 0,5 million d'images dans ImageNet), (2) lorsque l'ensemble de données d'évaluation diverge significativement des données d'entraînement, indiquant un scénario hors distribution, ou (3) lorsque les données synthétiques sont utilisées conjointement avec des images réelles, comme démontré dans l'entraînement des modèles CLIP.
Bien que les modèles de diffusion aient démontré des capacités puissantes à générer des images photoréalistes, la génération de vidéos réalistes et diversifiées en est encore à ses balbutiements. L'une des principales raisons est que les méthodes actuelles entrelacent le contenu spatial et la dynamique temporelle, ce qui augmente considérablement la complexité de la génération de vidéos à partir de texte (T2V). Dans ce travail, nous proposons HiGen, une méthode basée sur un modèle de diffusion qui améliore les performances en découplant les facteurs spatiaux et temporels des vidéos à deux niveaux, à savoir le niveau structurel et le niveau de contenu. Au niveau structurel, nous décomposons la tâche T2V en deux étapes, incluant le raisonnement spatial et le raisonnement temporel, en utilisant un débruiteur unifié. Plus précisément, nous générons des préalables spatialement cohérents à l'aide du texte pendant le raisonnement spatial, puis nous générons des mouvements temporellement cohérents à partir de ces préalables pendant le raisonnement temporel. Au niveau du contenu, nous extrayons deux indices subtils du contenu de la vidéo d'entrée qui peuvent exprimer respectivement les changements de mouvement et d'apparence. Ces deux indices guident ensuite l'entraînement du modèle pour générer des vidéos, permettant des variations de contenu flexibles et améliorant la stabilité temporelle. Grâce au paradigme découplé, HiGen peut efficacement réduire la complexité de cette tâche et générer des vidéos réalistes avec une précision sémantique et une stabilité de mouvement. Des expériences approfondies démontrent la performance supérieure de HiGen par rapport aux méthodes T2V de pointe.