Articles de recherche en IA sélectionnés quotidiennement avec traductions
Dans ce travail, nous proposons MagicDance, un modèle basé sur la diffusion pour le transfert de mouvements humains 2D et d'expressions faciales sur des vidéos de danse humaines complexes. Plus précisément, nous visons à générer des vidéos de danse humaine pour toute identité cible, guidées par des séquences de poses inédites, tout en conservant l'identité inchangée. Pour ce faire, nous proposons une stratégie d'apprentissage en deux étapes visant à dissocier les mouvements humains de l'apparence (par exemple, les expressions faciales, la teinte de la peau et les vêtements). Cette stratégie comprend un pré-entraînement d'un bloc de contrôle de l'apparence et un ajustement fin d'un bloc de contrôle conjoint apparence-pose sur des poses de danse humaine issues du même ensemble de données. Notre conception novatrice permet un contrôle robuste de l'apparence avec une cohérence temporelle du haut du corps, des attributs faciaux et même de l'arrière-plan. Le modèle généralise également bien sur des identités humaines inédites et des séquences de mouvements complexes, sans nécessiter d'ajustement fin avec des données supplémentaires présentant des attributs humains variés, en exploitant les connaissances préalables des modèles de diffusion d'images. De plus, le modèle proposé est facile à utiliser et peut être considéré comme un module/extension plug-in à Stable Diffusion. Nous démontrons également la capacité du modèle à générer des animations 2D en zero-shot, permettant non seulement le transfert d'apparence d'une identité à une autre, mais aussi une stylisation de type cartoon à partir de simples entrées de poses. Des expériences approfondies montrent notre performance supérieure sur l'ensemble de données TikTok.
La synthèse vocale basée sur les grands modèles de langage (LLM) a été largement adoptée dans le cadre de la synthèse vocale zero-shot. Cependant, ces modèles nécessitent des données à grande échelle et présentent les mêmes limitations que les modèles vocaux autorégressifs précédents, notamment une vitesse d'inférence lente et un manque de robustesse. Cet article propose HierSpeech++, un synthétiseur vocal zero-shot rapide et performant pour la synthèse vocale texte-à-parole (TTS) et la conversion de voix (VC). Nous avons vérifié que les frameworks de synthèse vocale hiérarchique pouvaient considérablement améliorer la robustesse et l'expressivité de la parole synthétique. De plus, nous améliorons significativement la naturalité et la similarité du locuteur dans les scénarios de synthèse vocale zero-shot. Pour la synthèse texte-à-parole, nous adoptons le framework texte-à-vec, qui génère une représentation vocale auto-supervisée et une représentation F0 basées sur les représentations textuelles et les indications prosodiques. Ensuite, HierSpeech++ génère la parole à partir du vecteur généré, de F0 et de l'indication vocale. Nous introduisons également un framework efficace de surrésolution vocale de 16 kHz à 48 kHz. Les résultats expérimentaux ont démontré que l'autoencodeur variationnel hiérarchique peut être un synthétiseur vocal zero-shot performant, surpassant les modèles basés sur LLM et sur la diffusion. De plus, nous avons atteint la première qualité de synthèse vocale zero-shot au niveau humain. Des échantillons audio et le code source sont disponibles à l'adresse https://github.com/sh-lee-prml/HierSpeechpp.
Nous proposons une méthode permettant une extraction de maillage précise et extrêmement rapide à partir du rendu par splatting de Gaussiennes 3D. Le splatting de Gaussiennes est récemment devenu très populaire car il permet un rendu réaliste tout en étant significativement plus rapide à entraîner que les NeRFs. Cependant, il est difficile d'extraire un maillage à partir des millions de petites Gaussiennes 3D, car ces Gaussiennes ont tendance à être désorganisées après l'optimisation, et aucune méthode n'a été proposée jusqu'à présent. Notre première contribution clé est un terme de régularisation qui encourage les Gaussiennes à s'aligner correctement avec la surface de la scène. Nous introduisons ensuite une méthode qui exploite cet alignement pour extraire un maillage à partir des Gaussiennes en utilisant la reconstruction de Poisson, qui est rapide, scalable et préserve les détails, contrairement à l'algorithme des Marching Cubes généralement appliqué pour extraire des maillages à partir de SDFs neuronaux. Enfin, nous introduisons une stratégie de raffinement optionnelle qui lie les Gaussiennes à la surface du maillage, et optimise conjointement ces Gaussiennes et le maillage via le rendu par splatting de Gaussiennes. Cela permet une édition, une sculpture, un rigging, une animation, un compositing et un rééclairage faciles des Gaussiennes en utilisant des logiciels traditionnels en manipulant le maillage plutôt que les Gaussiennes elles-mêmes. La récupération d'un tel maillage éditable pour un rendu réaliste se fait en quelques minutes avec notre méthode, contre plusieurs heures avec les méthodes de pointe sur les SDFs neuronaux, tout en offrant une meilleure qualité de rendu.
Malgré les avancées impressionnantes récentes des modèles de diffusion texte-image, l'obtention d'images de haute qualité nécessite souvent l'ingénierie de prompts par des humains ayant développé une expertise dans leur utilisation. Dans ce travail, nous présentons NeuroPrompts, un cadre adaptatif qui améliore automatiquement le prompt d'un utilisateur pour augmenter la qualité des générations produites par les modèles texte-image. Notre cadre utilise un décodage de texte contraint avec un modèle de langage pré-entraîné qui a été adapté pour générer des prompts similaires à ceux produits par des ingénieurs de prompts humains. Cette approche permet des générations texte-image de meilleure qualité et offre un contrôle utilisateur sur les caractéristiques stylistiques via la spécification d'un ensemble de contraintes. Nous démontrons l'utilité de notre cadre en créant une application interactive pour l'amélioration de prompts et la génération d'images utilisant Stable Diffusion. De plus, nous menons des expériences en utilisant un large ensemble de données de prompts conçus par des humains pour la génération texte-image et montrons que notre approche produit automatiquement des prompts améliorés qui aboutissent à une qualité d'image supérieure. Nous rendons notre code, une vidéo de démonstration et une instance en ligne de NeuroPrompts publiquement disponibles.
Nous présentons une méthode pour créer des curseurs de concepts interprétables permettant un contrôle précis des attributs dans la génération d'images à partir de modèles de diffusion. Notre approche identifie une direction de paramètres de faible rang correspondant à un concept tout en minimisant l'interférence avec d'autres attributs. Un curseur est créé à l'aide d'un petit ensemble d'invites ou d'images d'exemple ; ainsi, les directions des curseurs peuvent être définies pour des concepts textuels ou visuels. Les curseurs de concepts sont plug-and-play : ils peuvent être composés efficacement et modulés de manière continue, permettant un contrôle précis de la génération d'images. Dans des expériences quantitatives comparées aux techniques d'édition précédentes, nos curseurs montrent des modifications ciblées plus fortes avec une interférence moindre. Nous présentons des curseurs pour le temps, l'âge, les styles et les expressions, ainsi que des compositions de curseurs. Nous montrons comment les curseurs peuvent transférer des latents de StyleGAN pour une édition intuitive de concepts visuels difficiles à décrire textuellement. Nous constatons également que notre méthode peut aider à résoudre des problèmes de qualité persistants dans Stable Diffusion XL, notamment la réparation des déformations d'objets et la correction des mains déformées. Notre code, données et curseurs entraînés sont disponibles à l'adresse https://sliders.baulab.info/
Nous présentons PhysGaussian, une nouvelle méthode qui intègre de manière fluide la dynamique newtonienne physiquement fondée dans des Gaussiennes 3D pour réaliser une synthèse de mouvements novateurs de haute qualité. En utilisant une méthode des points matériels (MPM) personnalisée, notre approche enrichit les noyaux gaussiens 3D avec des attributs de déformation cinématique et de contrainte mécanique physiquement significatifs, tous évoluant conformément aux principes de la mécanique des milieux continus. Une caractéristique distinctive de notre méthode est l'intégration fluide entre la simulation physique et le rendu visuel : les deux composantes utilisent les mêmes noyaux gaussiens 3D comme représentations discrètes. Cela élimine la nécessité de maillages triangulaires/tétraédriques, de cubes de marche, de "maillages cages" ou de toute autre forme d'incorporation géométrique, mettant en avant le principe de "ce que vous voyez est ce que vous simulez (WS^2)". Notre méthode démontre une polyvalence exceptionnelle sur une grande variété de matériaux—incluant des entités élastiques, des métaux, des fluides non newtoniens et des matériaux granulaires—montrant ainsi ses fortes capacités à créer des contenus visuels diversifiés avec des points de vue et des mouvements novateurs. Notre page de projet est disponible à l'adresse : https://xpandora.github.io/PhysGaussian/
Nous proposons un modèle de reconstruction à grande échelle sans pose (PF-LRM) pour reconstruire un objet 3D à partir de quelques images non positionnées, même avec peu de chevauchement visuel, tout en estimant simultanément les poses relatives de la caméra en ~1,3 seconde sur une seule GPU A100. PF-LRM est une méthode hautement scalable qui utilise des blocs d'auto-attention pour échanger des informations entre des tokens d'objet 3D et des tokens d'image 2D ; nous prédisons un nuage de points grossier pour chaque vue, puis utilisons un solveur Perspective-n-Point (PnP) différentiable pour obtenir les poses de la caméra. Lorsqu'il est entraîné sur une grande quantité de données multi-vues posées d'environ 1 million d'objets, PF-LRM montre une forte capacité de généralisation inter-dataset, et surpasse les méthodes de référence avec une large marge en termes de précision de prédiction de pose et de qualité de reconstruction 3D sur divers ensembles de données d'évaluation inédits. Nous démontrons également l'applicabilité de notre modèle dans des tâches en aval de texte/image-à-3D avec une inférence rapide en feed-forward. Notre site web de projet est accessible à l'adresse : https://totoro97.github.io/pf-lrm.
Les récentes avancées dans la génération de texte-à-vidéo ont exploité la puissance des modèles de diffusion pour créer un contenu visuellement captivant conditionné par des prompts textuels. Cependant, ces approches se heurtent généralement à des coûts de calcul élevés et peinent souvent à produire des vidéos avec des mouvements physiques cohérents. Pour résoudre ces problèmes, nous proposons GPT4Motion, un cadre d'apprentissage sans entraînement qui exploite la capacité de planification des grands modèles de langage tels que GPT, la puissance de simulation physique de Blender, et l'excellente capacité de génération d'images des modèles de diffusion texte-à-image pour améliorer la qualité de la synthèse vidéo. Plus précisément, GPT4Motion utilise GPT-4 pour générer un script Blender basé sur un prompt textuel utilisateur, qui commande le moteur physique intégré de Blender pour créer des composants de scène fondamentaux encapsulant des mouvements physiques cohérents entre les images. Ces composants sont ensuite introduits dans Stable Diffusion pour générer une vidéo alignée avec le prompt textuel. Les résultats expérimentaux sur trois scénarios de base de mouvement physique, incluant la chute et la collision d'objets rigides, le drapage et le balancement de tissus, et l'écoulement de liquides, démontrent que GPT4Motion peut générer des vidéos de haute qualité tout en maintenant la cohérence des mouvements et la consistance des entités. GPT4Motion offre de nouvelles perspectives dans la recherche texte-à-vidéo, améliorant sa qualité et élargissant son horizon pour les explorations futures.