Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons aMUSEd, un modèle masqué d'images (MIM) open-source et léger pour la génération d'images à partir de texte, basé sur MUSE. Avec seulement 10 % des paramètres de MUSE, aMUSEd est conçu pour une génération rapide d'images. Nous pensons que le MIM est sous-exploré par rapport à la diffusion latente, l'approche dominante pour la génération d'images à partir de texte. Comparé à la diffusion latente, le MIM nécessite moins d'étapes d'inférence et est plus interprétable. De plus, le MIM peut être affiné pour apprendre des styles supplémentaires avec une seule image. Nous espérons encourager une exploration plus approfondie du MIM en démontrant son efficacité pour la génération d'images à grande échelle à partir de texte et en publiant un code d'entraînement reproductible. Nous publions également des points de contrôle pour deux modèles qui produisent directement des images aux résolutions 256x256 et 512x512.
Nous présentons un cadre pour générer des avatars photoréalistes complets qui gesticulent en fonction de la dynamique conversationnelle d'une interaction dyadique. À partir d'un fichier audio de parole, nous produisons plusieurs possibilités de mouvements gestuels pour un individu, incluant le visage, le corps et les mains. La clé de notre méthode réside dans la combinaison des avantages de la diversité d'échantillons offerte par la quantification vectorielle avec les détails haute fréquence obtenus par diffusion, permettant de générer des mouvements plus dynamiques et expressifs. Nous visualisons les mouvements générés à l'aide d'avatars hautement photoréalistes capables d'exprimer des nuances cruciales dans les gestes (par exemple, les grimaces et les sourires moqueurs). Pour faciliter cette ligne de recherche, nous introduisons un jeu de données conversationnel multi-vues, le premier en son genre, permettant une reconstruction photoréaliste. Les expériences montrent que notre modèle génère des gestes appropriés et variés, surpassant les méthodes basées uniquement sur la diffusion ou la quantification vectorielle. De plus, notre évaluation perceptuelle souligne l'importance du photoréalisme (par rapport aux maillages) pour évaluer avec précision les détails subtils des mouvements dans les gestes conversationnels. Le code et le jeu de données sont disponibles en ligne.
Nous présentons Image Sculpting, un nouveau cadre pour l'édition d'images 2D en intégrant des outils issus de la géométrie et du graphisme 3D. Cette approche diffère nettement des méthodes existantes, qui se limitent aux espaces 2D et reposent généralement sur des instructions textuelles, entraînant ambiguïté et contrôle limité. Image Sculpting transforme les objets 2D en 3D, permettant une interaction directe avec leur géométrie tridimensionnelle. Après édition, ces objets sont réintégrés en 2D, fusionnant avec l'image originale pour produire des résultats haute fidélité grâce à un processus d'amélioration allant du grossier au fin. Le cadre supporte des options d'édition précises, quantifiables et physiquement plausibles telles que la modification de pose, la rotation, la translation, la composition 3D, la sculpture et l'ajout séquentiel. Il marque une première étape vers la combinaison de la liberté créative des modèles génératifs avec la précision des pipelines graphiques.
Les progrès récents des modèles de diffusion d'images ont conduit à des améliorations notables dans la génération d'images de haute qualité. Combinés aux champs de radiance neuronaux (NeRFs), ils ont ouvert de nouvelles opportunités dans la génération 3D. Cependant, la plupart des approches génératives 3D sont centrées sur des objets, et leur application à l'édition de scènes photoréalistes existantes n'est pas triviale. Nous proposons SIGNeRF, une nouvelle approche pour l'édition rapide et contrôlée de scènes NeRF et la génération d'objets intégrés à la scène. Une nouvelle stratégie de mise à jour générative assure la cohérence 3D à travers les images éditées, sans nécessiter d'optimisation itérative. Nous constatons que les modèles de diffusion conditionnés par la profondeur possèdent intrinsèquement la capacité de générer des vues 3D cohérentes en demandant une grille d'images plutôt que des vues uniques. Sur la base de ces observations, nous introduisons une feuille de référence multi-vues d'images modifiées. Notre méthode met à jour une collection d'images de manière cohérente en se basant sur la feuille de référence et affine le NeRF original avec le nouvel ensemble d'images généré en une seule étape. En exploitant le mécanisme de conditionnement par la profondeur du modèle de diffusion d'images, nous obtenons un contrôle précis sur l'emplacement spatial de l'édition et imposons un guidage de forme par une région sélectionnée ou un maillage externe.
Les méthodes de conversion de voix chantée (SVC) basées sur la diffusion ont atteint des performances remarquables, produisant des audios naturels avec une grande similarité au timbre cible. Cependant, le processus d'échantillonnage itératif entraîne une vitesse d'inférence lente, rendant ainsi l'accélération cruciale. Dans cet article, nous proposons CoMoSVC, une méthode SVC basée sur un modèle de cohérence, visant à atteindre à la fois une génération de haute qualité et un échantillonnage à grande vitesse. Un modèle enseignant basé sur la diffusion est d'abord spécialement conçu pour la SVC, puis un modèle étudiant est distillé en exploitant les propriétés d'auto-cohérence pour réaliser un échantillonnage en une seule étape. Les expériences menées sur une seule carte graphique NVIDIA GTX4090 révèlent que bien que CoMoSVC ait une vitesse d'inférence significativement plus rapide que le système SVC basé sur la diffusion de pointe (SOTA), il atteint tout de même des performances de conversion comparables ou supérieures selon des mesures subjectives et objectives. Des échantillons audio et les codes sont disponibles à l'adresse https://comosvc.github.io/.
Les modèles parallèles de synthèse vocale ont été largement utilisés pour la synthèse de parole en temps réel, offrant une meilleure contrôlabilité et un processus de synthèse beaucoup plus rapide que les modèles auto-régressifs conventionnels. Bien que les modèles parallèles présentent de nombreux avantages, ils deviennent naturellement inadaptés à la synthèse incrémentale en raison de leur architecture entièrement parallèle, comme celle des transformateurs. Dans ce travail, nous proposons Incremental FastPitch, une nouvelle variante de FastPitch capable de produire de manière incrémentale des segments de spectrogrammes de haute qualité. Cela est rendu possible par l'amélioration de l'architecture avec des blocs FFT basés sur des segments, l'entraînement avec des masques d'attention contraints par le champ réceptif, et l'inférence avec des états de modèle passés de taille fixe. Les résultats expérimentaux montrent que notre proposition peut produire une qualité de parole comparable à celle du FastPitch parallèle, avec une latence significativement plus faible, permettant ainsi un temps de réponse encore plus court pour les applications de synthèse vocale en temps réel.
Les appareils photo reflex numériques peuvent atteindre plusieurs niveaux de zoom en ajustant les distances des lentilles ou en changeant le type d'objectif. Cependant, ces techniques ne sont pas réalisables sur les smartphones en raison de contraintes d'espace. La plupart des fabricants de smartphones adoptent un système de zoom hybride : généralement un objectif grand angle (W) pour un faible niveau de zoom et un objectif téléphoto (T) pour un niveau de zoom élevé. Pour simuler des niveaux de zoom intermédiaires entre W et T, ces systèmes recadrent et suréchantillonnent numériquement les images provenant de W, ce qui entraîne une perte significative de détails. Dans cet article, nous proposons un système efficace pour la super-résolution de zoom hybride sur les appareils mobiles, qui capture une paire synchronisée de clichés W et T et exploite des modèles d'apprentissage automatique pour aligner et transférer les détails de T vers W. Nous développons en outre une méthode de fusion adaptative qui prend en compte les écarts de profondeur de champ, les occlusions de scène, les incertitudes de flux et les erreurs d'alignement. Pour minimiser l'écart de domaine, nous concevons un dispositif à double caméra pour smartphone afin de capturer des entrées et des vérités terrain pour l'entraînement supervisé. Notre méthode génère une image de 12 mégapixels en 500 ms sur une plateforme mobile et se compare favorablement aux méthodes de pointe lors d'une évaluation approfondie dans des scénarios réels.