Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les récentes avancées dans les modèles de langage de grande taille (LLMs) ont conduit à la création d'agents intelligents capables d'exécuter des tâches complexes. Cet article présente un nouveau cadre d'agent multimodal basé sur les LLMs, conçu pour opérer des applications smartphone. Notre cadre permet à l'agent de manipuler les applications smartphone à travers un espace d'actions simplifié, imitant des interactions humaines telles que le tapotement et le balayage. Cette approche novatrice contourne le besoin d'accès au back-end du système, élargissant ainsi son applicabilité à diverses applications. Au cœur de la fonctionnalité de notre agent se trouve sa méthode d'apprentissage innovante. L'agent apprend à naviguer et à utiliser de nouvelles applications soit par exploration autonome, soit en observant des démonstrations humaines. Ce processus génère une base de connaissances que l'agent consulte pour exécuter des tâches complexes à travers différentes applications. Pour démontrer la praticabilité de notre agent, nous avons mené des tests approfondis sur 50 tâches dans 10 applications différentes, incluant les réseaux sociaux, les emails, les cartes, les achats et des outils sophistiqués d'édition d'images. Les résultats confirment la compétence de notre agent dans la gestion d'une diversité de tâches de haut niveau.
Cet article présente Paint3D, un nouveau cadre génératif allant du grossier au fin, capable de produire des cartes de textures UV 2K haute résolution, sans éclairage et diversifiées pour des maillages 3D non texturés, conditionnées par des entrées textuelles ou visuelles. Le défi principal abordé est la génération de textures de haute qualité sans informations d'éclairage intégrées, ce qui permet aux textures d'être rééclairées ou rééditées dans les pipelines graphiques modernes. Pour y parvenir, notre méthode exploite d'abord un modèle de diffusion 2D pré-entraîné prenant en compte la profondeur pour générer des images conditionnelles par vue et effectuer une fusion de textures multi-vues, produisant ainsi une carte de texture grossière initiale. Cependant, comme les modèles 2D ne peuvent pas pleinement représenter les formes 3D et désactivent les effets d'éclairage, la carte de texture grossière présente des zones incomplètes et des artefacts d'illumination. Pour résoudre ce problème, nous entraînons des modèles de diffusion UV Inpainting et UVHD spécialisés pour le raffinement conscient de la forme des zones incomplètes et l'élimination des artefacts d'illumination. Grâce à ce processus allant du grossier au fin, Paint3D peut produire des textures UV 2K de haute qualité qui maintiennent une cohérence sémantique tout en étant sans éclairage, faisant ainsi progresser de manière significative l'état de l'art dans la texturation d'objets 3D.
Nous présentons les vecteurs temporels, un outil simple pour adapter les modèles de langage à de nouvelles périodes temporelles. Les vecteurs temporels sont créés en affinant un modèle de langage sur des données provenant d'une seule période (par exemple, une année ou un mois), puis en soustrayant les poids du modèle pré-entraîné d'origine. Ce vecteur spécifie une direction dans l'espace des poids qui, comme le montrent nos expériences, améliore les performances sur les textes de cette période. Les vecteurs temporels spécialisés pour des périodes adjacentes semblent être positionnés plus proches les uns des autres dans une variété. En utilisant cette structure, nous interpolons entre les vecteurs temporels pour induire de nouveaux modèles qui performent mieux sur les périodes intermédiaires et futures, sans aucun entraînement supplémentaire. Nous démontrons la cohérence de nos résultats à travers différentes tâches, domaines, tailles de modèles et échelles temporelles. Nos résultats suggèrent que le temps est encodé dans l'espace des poids des modèles affinés.
Les récents progrès dans les modèles personnalisés de texte-à-image (T2I) ont révolutionné la création de contenu, permettant à des non-experts de générer des images impressionnantes avec des styles uniques. Bien que prometteuse, l'ajout de mouvements réalistes à ces images personnalisées par le texte pose des défis importants pour préserver les styles distincts, les détails de haute fidélité et la contrôlabilité des mouvements par le texte. Dans cet article, nous présentons PIA, un Animateur d'Images Personnalisées qui excelle dans l'alignement avec les images de condition, la contrôlabilité des mouvements par le texte, et la compatibilité avec divers modèles T2I personnalisés sans réglage spécifique. Pour atteindre ces objectifs, PIA s'appuie sur un modèle T2I de base avec des couches d'alignement temporel bien entraînées, permettant la transformation fluide de tout modèle T2I personnalisé en un modèle d'animation d'images. Un composant clé de PIA est l'introduction du module de condition, qui utilise l'image de condition et l'affinité inter-images comme entrée pour transférer les informations d'apparence guidées par l'indice d'affinité pour la synthèse individuelle des images dans l'espace latent. Cette conception atténue les défis liés à l'alignement des images en termes d'apparence et permet une concentration plus forte sur l'alignement avec les indications liées au mouvement.
Les récents progrès dans le domaine de la restauration d'images guidée par texte, basés sur le succès sans précédent des modèles de diffusion texte-à-image, ont conduit à des résultats exceptionnellement réalistes et visuellement plausibles. Cependant, il existe encore un potentiel significatif d'amélioration dans les modèles actuels de restauration texte-à-image, notamment en ce qui concerne un meilleur alignement des zones restaurées avec les instructions de l'utilisateur et la réalisation de restaurations en haute résolution. Par conséquent, dans cet article, nous présentons HD-Painter, une approche entièrement exempte d'entraînement qui suit précisément les instructions et s'adapte de manière cohérente à la restauration d'images en haute résolution. À cette fin, nous concevons la couche d'attention introvertie sensible aux instructions (PAIntA), qui améliore les scores d'auto-attention grâce aux informations des instructions, aboutissant à des générations mieux alignées avec le texte. Pour améliorer davantage la cohérence des instructions, nous introduisons le mécanisme de guidage des scores d'attention par re-pondération (RASG), intégrant de manière transparente une stratégie d'échantillonnage post-hoc dans la forme générale de DDIM pour éviter les décalages latents hors distribution. De plus, HD-Painter permet une extension à des échelles plus grandes grâce à une technique de super-résolution spécialement conçue pour la restauration, permettant de compléter les régions manquantes dans des images jusqu'à une résolution de 2K. Nos expériences démontrent que HD-Painter surpasse qualitativement et quantitativement les approches de pointe existantes, avec une amélioration impressionnante de la précision de génération de 61,4 % contre 51,9 %. Nous mettrons les codes à disposition publiquement à l'adresse suivante : https://github.com/Picsart-AI-Research/HD-Painter.
Les avancées récentes dans la tâche de génération de texte-à-3D exploitent des modèles de diffusion texte-à-image affinés pour produire des images multi-vues, suivies d'une reconstruction par NeRF. Cependant, les modèles de diffusion affinés de manière supervisée (SFT) existants souffrent encore d'incohérences multi-vues et des artefacts NeRF qui en résultent. Bien qu'un entraînement plus long avec SFT améliore la cohérence, il provoque également un décalage de distribution, ce qui réduit la diversité et les détails réalistes. Nous soutenons que l'affinage SFT des modèles de diffusion multi-vues ressemble à l'étape d'affinage par instruction du pipeline d'alignement des LLM et peut bénéficier des méthodes d'affinage par apprentissage par renforcement (RLFT). Essentiellement, les méthodes RLFT optimisent les modèles au-delà de leur distribution de données SFT en utilisant leurs propres sorties, atténuant ainsi efficacement le décalage de distribution. À cette fin, nous introduisons Carve3D, une méthode RLFT couplée à la métrique de Cohérence de Reconstruction Multi-vues (MRC), pour améliorer la cohérence des modèles de diffusion multi-vues. Pour calculer la MRC sur un ensemble d'images multi-vues, nous les comparons à leurs rendus correspondants du NeRF reconstruit aux mêmes points de vue. Nous validons la robustesse de la MRC avec des expériences approfondies menées sous des niveaux contrôlés d'incohérence. Nous améliorons l'algorithme RLFT de base pour stabiliser le processus d'entraînement, réduire le décalage de distribution et identifier les lois d'échelle. Grâce à des expériences qualitatives et quantitatives, ainsi qu'à une étude utilisateur, nous démontrons que Carve3D améliore la cohérence multi-vues, la qualité supérieure de la reconstruction NeRF qui en résulte, et un décalage de distribution minimal par rapport à un SFT plus long. Page du projet : https://desaixie.github.io/carve-3d.
Nous présentons ShowRoom3D, une approche en trois étapes pour générer des scènes 3D à l'échelle d'une pièce de haute qualité à partir de textes. Les méthodes précédentes utilisant des préalables de diffusion 2D pour optimiser les champs de radiance neuronaux (NeRF) afin de générer des scènes à l'échelle d'une pièce ont montré une qualité insatisfaisante. Cela est principalement attribué aux limitations des préalables 2D, qui manquent de conscience 3D, ainsi qu'aux contraintes dans la méthodologie d'entraînement. Dans cet article, nous utilisons un préalable de diffusion 3D, MVDiffusion, pour optimiser la scène 3D à l'échelle d'une pièce. Nos contributions se situent à deux niveaux. Premièrement, nous proposons un processus de sélection progressive des vues pour optimiser NeRF. Cela implique de diviser le processus d'entraînement en trois étapes, en élargissant progressivement la portée de l'échantillonnage des caméras. Deuxièmement, nous proposons une méthode de transformation de pose dans la deuxième étape. Cela garantira que MVDiffusion fournit un guidage de vue précis. En conséquence, ShowRoom3D permet la génération de pièces avec une intégrité structurelle améliorée, une clarté accrue depuis n'importe quelle vue, une répétition de contenu réduite et une cohérence plus élevée entre les différentes perspectives. Des expériences approfondies démontrent que notre méthode surpasse de manière significative les approches de pointe par une large marge en termes d'étude utilisateur.
La synthèse d'images sémantiques, c'est-à-dire la génération d'images à partir de cartes de labels sémantiques fournies par l'utilisateur, est une tâche importante de génération d'images conditionnelles, car elle permet de contrôler à la fois le contenu et la disposition spatiale des images générées. Bien que les modèles de diffusion aient repoussé l'état de l'art en modélisation générative d'images, leur processus d'inférence itératif les rend exigeants en termes de calcul. D'autres approches, comme les GAN, sont plus efficaces car elles ne nécessitent qu'un seul passage en avant pour la génération, mais la qualité des images tend à souffrir sur des ensembles de données vastes et diversifiés. Dans ce travail, nous proposons une nouvelle classe de discriminateurs GAN pour la synthèse d'images sémantiques, qui génère des images hautement réalistes en exploitant des réseaux de base de caractéristiques pré-entraînés pour des tâches telles que la classification d'images. Nous introduisons également une nouvelle architecture de générateur avec une meilleure modélisation du contexte et utilisant l'attention croisée pour injecter du bruit dans les variables latentes, conduisant à des images générées plus diversifiées. Notre modèle, que nous nommons DP-SIMS, atteint des résultats de pointe en termes de qualité d'image et de cohérence avec les cartes de labels en entrée sur ADE-20K, COCO-Stuff et Cityscapes, surpassant les récents modèles de diffusion tout en nécessitant deux ordres de grandeur de moins de calcul pour l'inférence.
Les avancées récentes dans la modélisation de la tête humaine permettent de générer des modèles 3D de tête plausibles grâce à des représentations neuronales. Cependant, la construction de modèles de tête complets et haute fidélité avec un contrôle explicite de l'animation reste un défi. De plus, compléter la géométrie de la tête à partir d'une observation partielle, par exemple provenant d'un capteur de profondeur, tout en préservant les détails, est souvent problématique pour les méthodes existantes. Nous introduisons un modèle génératif pour des maillages 3D de tête détaillés, basé sur un modèle morphable 3D articulé (3DMM) qui permet à la fois une animation explicite et la préservation des détails fins. Notre méthode est entraînée en deux étapes. Premièrement, nous enregistrons un modèle de tête paramétrique avec des déplacements de sommets sur chaque maillage du jeu de données NPHM récemment introduit, qui contient des scans 3D précis de têtes. Les déplacements estimés sont intégrés dans une disposition UV prédéfinie. Deuxièmement, nous entraînons un modèle StyleGAN pour généraliser les cartes UV de déplacements. La décomposition du modèle paramétrique et des déplacements de sommets de haute qualité nous permet d'animer le modèle et de le modifier sémantiquement. Nous démontrons les résultats de la génération inconditionnelle et de l'ajustement à des observations complètes ou partielles. La page du projet est disponible à l'adresse suivante : https://seva100.github.io/headcraft.
La synthèse de vues vidéo, permettant la création de cadres visuellement attrayants à partir de points de vue et de moments arbitraires, offre des expériences de visionnage immersives. Les champs de radiance neuronaux, en particulier NeRF, initialement développés pour des scènes statiques, ont stimulé la création de diverses méthodes pour la synthèse de vues vidéo. Cependant, le défi pour la synthèse de vues vidéo réside dans le flou de mouvement, une conséquence du déplacement des objets ou de la caméra pendant l'exposition, qui entrave la synthèse précise de vues spatio-temporelles nettes. En réponse, nous proposons un nouveau cadre NeRF dynamique de débruitage pour les vidéos monoculaires floues, appelé DyBluRF, composé d'une étape de Raffinement Intercalé des Rayons (Interleave Ray Refinement, IRR) et d'une étape de Débruitage basé sur la Décomposition du Mouvement (Motion Decomposition-based Deblurring, MDD). Notre DyBluRF est le premier à aborder et à gérer la synthèse de nouvelles vues pour les vidéos monoculaires floues. L'étape IRR reconstruit conjointement les scènes 3D dynamiques et affine les informations imprécises de pose de la caméra pour lutter contre les informations de pose inexactes extraites des cadres flous donnés. L'étape MDD est une nouvelle approche de prédiction incrémentale des rayons nets latents (Incremental Latent Sharp-rays Prediction, ILSP) pour les cadres de vidéo monoculaire floue en décomposant les rayons nets latents en composantes de mouvement global de la caméra et de mouvement local des objets. Les résultats expérimentaux approfondis démontrent que notre DyBluRF surpasse qualitativement et quantitativement les méthodes les plus récentes de l'état de l'art. Notre page de projet, incluant les codes sources et le modèle pré-entraîné, est disponible publiquement à l'adresse https://kaist-viclab.github.io/dyblurf-site/.