Articles de recherche en IA sélectionnés quotidiennement avec traductions
Malgré les avancées récentes dans la reconstruction d'humains habillés à partir d'une seule image, la restauration précise des "régions non visibles" avec des détails de haut niveau reste un défi non résolu qui manque d'attention. Les méthodes existantes génèrent souvent des surfaces arrière trop lisses avec une texture floue. Mais comment capturer efficacement tous les attributs visuels d'un individu à partir d'une seule image, suffisants pour reconstruire les zones non visibles (par exemple, la vue arrière) ? Motivé par la puissance des modèles de base, TeCH reconstruit l'humain en 3D en exploitant 1) des invites textuelles descriptives (par exemple, vêtements, couleurs, coiffures) qui sont générées automatiquement via un modèle d'analyse de vêtements et de Question-Réponse Visuelle (VQA), 2) un modèle de diffusion Text-to-Image (T2I) personnalisé et affiné qui apprend l'apparence "indescriptible". Pour représenter des humains habillés en 3D haute résolution à un coût abordable, nous proposons une représentation 3D hybride basée sur DMTet, qui consiste en une grille de forme corporelle explicite et un champ de distance implicite. Guidé par les invites descriptives + le modèle de diffusion T2I personnalisé, la géométrie et la texture des humains en 3D sont optimisées via un échantillonnage de distillation de score multi-vues (SDS) et des pertes de reconstruction basées sur l'observation originale. TeCH produit des humains habillés en 3D haute fidélité avec une texture cohérente et délicate, et une géométrie corporelle détaillée. Les expériences quantitatives et qualitatives démontrent que TeCH surpasse les méthodes de pointe en termes de précision de reconstruction et de qualité de rendu. Le code sera rendu public à des fins de recherche à l'adresse https://huangyangyi.github.io/tech.
La génération de texte personnalisé est un domaine de recherche émergent qui a suscité beaucoup d'attention ces dernières années. La plupart des études dans ce domaine se concentrent sur un domaine particulier en concevant des caractéristiques ou des modèles sur mesure. Dans ce travail, nous proposons une approche générale pour la génération de texte personnalisé en utilisant des modèles de langage de grande taille (LLMs). Inspirés par les pratiques de l'enseignement de l'écriture, nous développons un cadre multistage et multitâche pour enseigner aux LLMs la génération personnalisée. Dans l'enseignement de l'écriture, la tâche d'écriture à partir de sources est souvent décomposée en plusieurs étapes qui impliquent la recherche, l'évaluation, la synthèse, la résumé et l'intégration d'informations. De manière analogue, notre approche de la génération de texte personnalisé consiste en plusieurs étapes : la récupération, le classement, la synthèse, la résumé et la génération. En outre, nous introduisons un cadre multitâche qui aide le modèle à améliorer davantage sa capacité de génération, inspiré par l'observation en éducation que la compétence en lecture et la capacité d'écriture d'un étudiant sont souvent corrélées. Nous évaluons notre approche sur trois ensembles de données publics, chacun couvrant un domaine différent et représentatif. Nos résultats montrent des améliorations significatives par rapport à une variété de bases de référence.
Avec l'émergence des modèles de diffusion, la génération de texte-à-vidéo a récemment suscité un intérêt croissant. Cependant, un goulot d'étranglement important réside dans le fait que les vidéos générées ont souvent tendance à présenter des scintillements et des artefacts. Dans ce travail, nous proposons un réseau de diffusion à double flux (DSDN) pour améliorer la cohérence des variations de contenu dans la génération de vidéos. Plus précisément, les deux flux de diffusion conçus, à savoir les branches de contenu vidéo et de mouvement, peuvent non seulement fonctionner séparément dans leurs espaces propres pour produire des variations vidéo personnalisées ainsi que du contenu, mais aussi être bien alignés entre les domaines de contenu et de mouvement grâce à l'exploitation de notre module d'interaction cross-transformer, ce qui favorise la fluidité des vidéos générées. Par ailleurs, nous introduisons également un décomposeur et un combinateur de mouvement pour faciliter les opérations sur le mouvement vidéo. Les expériences qualitatives et quantitatives démontrent que notre méthode peut produire des vidéos continues impressionnantes avec moins de scintillements.
La génération de vidéos contrôlables a suscité une attention considérable ces dernières années. Cependant, deux limitations principales persistent : Premièrement, la plupart des travaux existants se concentrent sur le contrôle basé soit sur le texte, soit sur l’image ou la trajectoire, ce qui entraîne une incapacité à obtenir un contrôle fin dans les vidéos. Deuxièmement, la recherche sur le contrôle des trajectoires en est encore à ses débuts, la majorité des expériences étant menées sur des ensembles de données simples comme Human3.6M. Cette contrainte limite la capacité des modèles à traiter des images de domaine ouvert et à gérer efficacement des trajectoires courbes complexes. Dans cet article, nous proposons DragNUWA, un modèle de génération de vidéos basé sur la diffusion et adapté aux domaines ouverts. Pour résoudre le problème de granularité de contrôle insuffisante dans les travaux existants, nous introduisons simultanément des informations textuelles, visuelles et de trajectoire afin de fournir un contrôle fin du contenu vidéo d’un point de vue sémantique, spatial et temporel. Pour résoudre le problème de contrôle limité des trajectoires en domaine ouvert dans la recherche actuelle, nous proposons une modélisation des trajectoires selon trois aspects : un Échantillonneur de Trajectoire (TS) pour permettre un contrôle en domaine ouvert de trajectoires arbitraires, une Fusion Multiscalaire (MF) pour contrôler les trajectoires à différentes granularités, et une stratégie d’Apprentissage Adaptatif (AT) pour générer des vidéos cohérentes suivant les trajectoires. Nos expériences valident l’efficacité de DragNUWA, démontrant ses performances supérieures en matière de contrôle fin dans la génération de vidéos. Le lien de la page d’accueil est https://www.microsoft.com/en-us/research/project/dragnuwa/.
Les modèles d'images auto-supervisés et supervisés par le langage contiennent une connaissance riche du monde, essentielle pour la généralisation. Cependant, de nombreuses tâches robotiques nécessitent une compréhension détaillée de la géométrie 3D, souvent absente dans les caractéristiques d'images 2D. Ce travail comble ce fossé entre 2D et 3D pour la manipulation robotique en exploitant des champs de caractéristiques distillés pour combiner une géométrie 3D précise avec une sémantique riche provenant de modèles de base 2D. Nous présentons une méthode d'apprentissage en quelques essais pour la préhension et le placement à 6 degrés de liberté, qui tire parti de ces forts a priori spatiaux et sémantiques pour atteindre une généralisation en conditions réelles sur des objets non vus. En utilisant des caractéristiques distillées d'un modèle vision-langage, CLIP, nous proposons une manière de désigner de nouveaux objets pour la manipulation via du texte naturel libre, et démontrons sa capacité à généraliser à des expressions non vues et à des catégories d'objets nouvelles.
Les méthodes existantes pour la reconstruction 4D d'objets généraux se déformant de manière non rigide se concentrent sur la synthèse de nouvelles vues et négligent les correspondances. Cependant, la cohérence temporelle permet des tâches avancées telles que l'édition 3D, l'analyse du mouvement ou la création d'actifs virtuels. Nous proposons SceNeRFlow pour reconstruire une scène générale non rigide de manière cohérente dans le temps. Notre méthode Dynamic-NeRF prend en entrée des vidéos RGB multi-vues et des images de fond provenant de caméras statiques avec des paramètres de caméra connus. Elle reconstruit ensuite les déformations d'un modèle canonique estimé de la géométrie et de l'apparence de manière en ligne. Comme ce modèle canonique est invariant dans le temps, nous obtenons des correspondances même pour des mouvements de longue durée et de grande amplitude. Nous utilisons des représentations neuronales de scène pour paramétrer les composants de notre méthode. Comme les méthodes Dynamic-NeRF précédentes, nous utilisons un modèle de déformation inverse. Nous constatons que des adaptations non triviales de ce modèle sont nécessaires pour gérer des mouvements plus importants : nous décomposons les déformations en une composante grossière fortement régularisée et une composante fine faiblement régularisée, où la composante grossière étend également le champ de déformation dans l'espace entourant l'objet, ce qui permet un suivi dans le temps. Nous montrons expérimentalement que, contrairement aux travaux précédents qui ne gèrent que de petits mouvements, notre méthode permet la reconstruction de mouvements à l'échelle d'un studio.