Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les progrès récents dans la génération d'images personnalisées utilisant des modèles de diffusion ont été significatifs. Cependant, les avancées dans le domaine de la génération d'images personnalisées en domaine ouvert sans ajustement fin progressent plutôt lentement. Dans cet article, nous proposons Subject-Diffusion, un nouveau modèle de génération d'images personnalisées en domaine ouvert qui, en plus de ne pas nécessiter d'ajustement fin au moment du test, ne requiert également qu'une seule image de référence pour prendre en charge la génération personnalisée d'images à sujet unique ou multiple dans n'importe quel domaine. Tout d'abord, nous construisons un outil d'étiquetage automatique des données et utilisons le jeu de données LAION-Aesthetics pour créer un ensemble de données à grande échelle composé de 76 millions d'images ainsi que de leurs boîtes englobantes de détection de sujet, masques de segmentation et descriptions textuelles correspondants. Ensuite, nous concevons un nouveau cadre unifié qui combine la sémantique du texte et de l'image en intégrant un contrôle de localisation grossière et un contrôle fin de l'image de référence pour maximiser la fidélité du sujet et la généralisation. De plus, nous adoptons également un mécanisme de contrôle de l'attention pour prendre en charge la génération de sujets multiples. Des résultats qualitatifs et quantitatifs approfondis démontrent que notre méthode surpasse d'autres cadres SOTA dans la génération d'images personnalisées uniques, multiples et humaines. Veuillez consulter notre {page du projet} : https://oppo-mente-lab.github.io/subject_diffusion/
Les champs de radiance neuronaux (NeRF) ont le potentiel de devenir une représentation majeure des médias. Comme l'entraînement d'un NeRF n'a jamais été une tâche aisée, la protection de ses droits d'auteur devrait être une priorité. Dans cet article, en analysant les avantages et les inconvénients des solutions possibles de protection des droits d'auteur, nous proposons de protéger les droits d'auteur des modèles NeRF en remplaçant la représentation originale des couleurs dans le NeRF par une représentation des couleurs marquée par un filigrane. Ensuite, un schéma de rendu résistant à la distorsion est conçu pour garantir une extraction robuste des messages dans les rendus 2D des NeRF. Notre méthode proposée peut directement protéger les droits d'auteur des modèles NeRF tout en maintenant une qualité de rendu élevée et une précision des bits par rapport aux solutions alternatives.
Les récentes avancées dans les Champs de Radiance Neuronaux (NeRF) ont permis une reconstruction 3D de visages de haute fidélité ainsi que la synthèse de nouvelles vues, rendant leur manipulation une tâche essentielle en vision 3D. Cependant, les méthodes de manipulation existantes nécessitent un travail humain important, comme un masque sémantique fourni par l'utilisateur et une recherche manuelle d'attributs, ce qui les rend inadaptées aux utilisateurs non experts. Notre approche, en revanche, est conçue pour ne nécessiter qu'un seul texte pour manipuler un visage reconstruit avec NeRF. Pour ce faire, nous entraînons d'abord un manipulateur de scène, un NeRF déformable conditionné par un code latent, sur une scène dynamique afin de contrôler la déformation du visage à l'aide du code latent. Cependant, représenter une déformation de scène avec un seul code latent est peu favorable pour composer des déformations locales observées dans différentes instances. Ainsi, notre Composant d'Ancrage Conditionné par la Position (PAC) apprend à représenter une scène manipulée avec des codes latents variant spatialement. Leurs rendus avec le manipulateur de scène sont ensuite optimisés pour obtenir une similarité cosinus élevée avec un texte cible dans l'espace d'encodage CLIP, permettant ainsi une manipulation pilotée par texte. À notre connaissance, notre approche est la première à aborder la manipulation pilotée par texte d'un visage reconstruit avec NeRF. Des résultats étendus, des comparaisons et des études d'ablation démontrent l'efficacité de notre méthode.
Malgré le succès remarquable des modèles de diffusion dans la génération d'images, le problème de l'échantillonnage lent persiste. Pour accélérer le processus d'échantillonnage, des études antérieures ont reformulé l'échantillonnage par diffusion en tant qu'équations différentielles ordinaires (EDO) ou équations différentielles stochastiques (EDS) et ont introduit des méthodes numériques d'ordre supérieur. Cependant, ces méthodes produisent souvent des artefacts de divergence, en particulier avec un nombre réduit d'étapes d'échantillonnage, ce qui limite l'accélération réalisable. Dans cet article, nous explorons les causes potentielles de ces artefacts et suggérons que les petites régions de stabilité de ces méthodes pourraient en être la principale raison. Pour résoudre ce problème, nous proposons deux techniques novatrices. La première technique consiste à intégrer la dynamique de Heavy Ball (HB), une méthode bien connue pour améliorer l'optimisation, dans les méthodes numériques de diffusion existantes afin d'élargir leurs régions de stabilité. Nous démontrons également que les méthodes résultantes possèdent une convergence du premier ordre. La seconde technique, appelée Generalized Heavy Ball (GHVB), construit une nouvelle méthode d'ordre supérieur offrant un compromis variable entre précision et suppression des artefacts. Les résultats expérimentaux montrent que nos techniques sont très efficaces pour réduire les artefacts et améliorer la qualité des images, surpassant les solveurs de diffusion de pointe sur les modèles de diffusion basés sur les pixels et sur les espaces latents pour un échantillonnage à faible nombre d'étapes. Notre recherche apporte de nouvelles perspectives sur la conception de méthodes numériques pour les travaux futurs en diffusion.