papers.description
Les récentes avancées dans les modèles de langage de grande taille (LLMs) ont conduit à la création d'agents intelligents capables d'exécuter des tâches complexes. Cet article présente un nouveau cadre d'agent multimodal basé sur les LLMs, conçu pour opérer des applications smartphone. Notre cadre permet à l'agent de manipuler les applications smartphone à travers un espace d'actions simplifié, imitant des interactions humaines telles que le tapotement et le balayage. Cette approche novatrice contourne le besoin d'accès au back-end du système, élargissant ainsi son applicabilité à diverses applications. Au cœur de la fonctionnalité de notre agent se trouve sa méthode d'apprentissage innovante. L'agent apprend à naviguer et à utiliser de nouvelles applications soit par exploration autonome, soit en observant des démonstrations humaines. Ce processus génère une base de connaissances que l'agent consulte pour exécuter des tâches complexes à travers différentes applications. Pour démontrer la praticabilité de notre agent, nous avons mené des tests approfondis sur 50 tâches dans 10 applications différentes, incluant les réseaux sociaux, les emails, les cartes, les achats et des outils sophistiqués d'édition d'images. Les résultats confirment la compétence de notre agent dans la gestion d'une diversité de tâches de haut niveau.
Cet article présente Paint3D, un nouveau cadre génératif allant du grossier au fin, capable de produire des cartes de textures UV 2K haute résolution, sans éclairage et diversifiées pour des maillages 3D non texturés, conditionnées par des entrées textuelles ou visuelles. Le défi principal abordé est la génération de textures de haute qualité sans informations d'éclairage intégrées, ce qui permet aux textures d'être rééclairées ou rééditées dans les pipelines graphiques modernes. Pour y parvenir, notre méthode exploite d'abord un modèle de diffusion 2D pré-entraîné prenant en compte la profondeur pour générer des images conditionnelles par vue et effectuer une fusion de textures multi-vues, produisant ainsi une carte de texture grossière initiale. Cependant, comme les modèles 2D ne peuvent pas pleinement représenter les formes 3D et désactivent les effets d'éclairage, la carte de texture grossière présente des zones incomplètes et des artefacts d'illumination. Pour résoudre ce problème, nous entraînons des modèles de diffusion UV Inpainting et UVHD spécialisés pour le raffinement conscient de la forme des zones incomplètes et l'élimination des artefacts d'illumination. Grâce à ce processus allant du grossier au fin, Paint3D peut produire des textures UV 2K de haute qualité qui maintiennent une cohérence sémantique tout en étant sans éclairage, faisant ainsi progresser de manière significative l'état de l'art dans la texturation d'objets 3D.
Les récents progrès dans les modèles personnalisés de texte-à-image (T2I) ont révolutionné la création de contenu, permettant à des non-experts de générer des images impressionnantes avec des styles uniques. Bien que prometteuse, l'ajout de mouvements réalistes à ces images personnalisées par le texte pose des défis importants pour préserver les styles distincts, les détails de haute fidélité et la contrôlabilité des mouvements par le texte. Dans cet article, nous présentons PIA, un Animateur d'Images Personnalisées qui excelle dans l'alignement avec les images de condition, la contrôlabilité des mouvements par le texte, et la compatibilité avec divers modèles T2I personnalisés sans réglage spécifique. Pour atteindre ces objectifs, PIA s'appuie sur un modèle T2I de base avec des couches d'alignement temporel bien entraînées, permettant la transformation fluide de tout modèle T2I personnalisé en un modèle d'animation d'images. Un composant clé de PIA est l'introduction du module de condition, qui utilise l'image de condition et l'affinité inter-images comme entrée pour transférer les informations d'apparence guidées par l'indice d'affinité pour la synthèse individuelle des images dans l'espace latent. Cette conception atténue les défis liés à l'alignement des images en termes d'apparence et permet une concentration plus forte sur l'alignement avec les indications liées au mouvement.
La synthèse d'images sémantiques, c'est-à-dire la génération d'images à partir de cartes de labels sémantiques fournies par l'utilisateur, est une tâche importante de génération d'images conditionnelles, car elle permet de contrôler à la fois le contenu et la disposition spatiale des images générées. Bien que les modèles de diffusion aient repoussé l'état de l'art en modélisation générative d'images, leur processus d'inférence itératif les rend exigeants en termes de calcul. D'autres approches, comme les GAN, sont plus efficaces car elles ne nécessitent qu'un seul passage en avant pour la génération, mais la qualité des images tend à souffrir sur des ensembles de données vastes et diversifiés. Dans ce travail, nous proposons une nouvelle classe de discriminateurs GAN pour la synthèse d'images sémantiques, qui génère des images hautement réalistes en exploitant des réseaux de base de caractéristiques pré-entraînés pour des tâches telles que la classification d'images. Nous introduisons également une nouvelle architecture de générateur avec une meilleure modélisation du contexte et utilisant l'attention croisée pour injecter du bruit dans les variables latentes, conduisant à des images générées plus diversifiées. Notre modèle, que nous nommons DP-SIMS, atteint des résultats de pointe en termes de qualité d'image et de cohérence avec les cartes de labels en entrée sur ADE-20K, COCO-Stuff et Cityscapes, surpassant les récents modèles de diffusion tout en nécessitant deux ordres de grandeur de moins de calcul pour l'inférence.
La synthèse de vues vidéo, permettant la création de cadres visuellement attrayants à partir de points de vue et de moments arbitraires, offre des expériences de visionnage immersives. Les champs de radiance neuronaux, en particulier NeRF, initialement développés pour des scènes statiques, ont stimulé la création de diverses méthodes pour la synthèse de vues vidéo. Cependant, le défi pour la synthèse de vues vidéo réside dans le flou de mouvement, une conséquence du déplacement des objets ou de la caméra pendant l'exposition, qui entrave la synthèse précise de vues spatio-temporelles nettes. En réponse, nous proposons un nouveau cadre NeRF dynamique de débruitage pour les vidéos monoculaires floues, appelé DyBluRF, composé d'une étape de Raffinement Intercalé des Rayons (Interleave Ray Refinement, IRR) et d'une étape de Débruitage basé sur la Décomposition du Mouvement (Motion Decomposition-based Deblurring, MDD). Notre DyBluRF est le premier à aborder et à gérer la synthèse de nouvelles vues pour les vidéos monoculaires floues. L'étape IRR reconstruit conjointement les scènes 3D dynamiques et affine les informations imprécises de pose de la caméra pour lutter contre les informations de pose inexactes extraites des cadres flous donnés. L'étape MDD est une nouvelle approche de prédiction incrémentale des rayons nets latents (Incremental Latent Sharp-rays Prediction, ILSP) pour les cadres de vidéo monoculaire floue en décomposant les rayons nets latents en composantes de mouvement global de la caméra et de mouvement local des objets. Les résultats expérimentaux approfondis démontrent que notre DyBluRF surpasse qualitativement et quantitativement les méthodes les plus récentes de l'état de l'art. Notre page de projet, incluant les codes sources et le modèle pré-entraîné, est disponible publiquement à l'adresse https://kaist-viclab.github.io/dyblurf-site/.