Articles de recherche IA sélectionnés quotidiennement avec traductions
Malgré les avancées récentes dans la reconstruction d'humains habillés à partir d'une seule image, la restauration précise des "régions non visibles" avec des détails de haut niveau reste un défi non résolu qui manque d'attention. Les méthodes existantes génèrent souvent des surfaces arrière trop lisses avec une texture floue. Mais comment capturer efficacement tous les attributs visuels d'un individu à partir d'une seule image, suffisants pour reconstruire les zones non visibles (par exemple, la vue arrière) ? Motivé par la puissance des modèles de base, TeCH reconstruit l'humain en 3D en exploitant 1) des invites textuelles descriptives (par exemple, vêtements, couleurs, coiffures) qui sont générées automatiquement via un modèle d'analyse de vêtements et de Question-Réponse Visuelle (VQA), 2) un modèle de diffusion Text-to-Image (T2I) personnalisé et affiné qui apprend l'apparence "indescriptible". Pour représenter des humains habillés en 3D haute résolution à un coût abordable, nous proposons une représentation 3D hybride basée sur DMTet, qui consiste en une grille de forme corporelle explicite et un champ de distance implicite. Guidé par les invites descriptives + le modèle de diffusion T2I personnalisé, la géométrie et la texture des humains en 3D sont optimisées via un échantillonnage de distillation de score multi-vues (SDS) et des pertes de reconstruction basées sur l'observation originale. TeCH produit des humains habillés en 3D haute fidélité avec une texture cohérente et délicate, et une géométrie corporelle détaillée. Les expériences quantitatives et qualitatives démontrent que TeCH surpasse les méthodes de pointe en termes de précision de reconstruction et de qualité de rendu. Le code sera rendu public à des fins de recherche à l'adresse https://huangyangyi.github.io/tech.
Les modèles d'images auto-supervisés et supervisés par le langage contiennent une connaissance riche du monde, essentielle pour la généralisation. Cependant, de nombreuses tâches robotiques nécessitent une compréhension détaillée de la géométrie 3D, souvent absente dans les caractéristiques d'images 2D. Ce travail comble ce fossé entre 2D et 3D pour la manipulation robotique en exploitant des champs de caractéristiques distillés pour combiner une géométrie 3D précise avec une sémantique riche provenant de modèles de base 2D. Nous présentons une méthode d'apprentissage en quelques essais pour la préhension et le placement à 6 degrés de liberté, qui tire parti de ces forts a priori spatiaux et sémantiques pour atteindre une généralisation en conditions réelles sur des objets non vus. En utilisant des caractéristiques distillées d'un modèle vision-langage, CLIP, nous proposons une manière de désigner de nouveaux objets pour la manipulation via du texte naturel libre, et démontrons sa capacité à généraliser à des expressions non vues et à des catégories d'objets nouvelles.
Les méthodes existantes pour la reconstruction 4D d'objets généraux se déformant de manière non rigide se concentrent sur la synthèse de nouvelles vues et négligent les correspondances. Cependant, la cohérence temporelle permet des tâches avancées telles que l'édition 3D, l'analyse du mouvement ou la création d'actifs virtuels. Nous proposons SceNeRFlow pour reconstruire une scène générale non rigide de manière cohérente dans le temps. Notre méthode Dynamic-NeRF prend en entrée des vidéos RGB multi-vues et des images de fond provenant de caméras statiques avec des paramètres de caméra connus. Elle reconstruit ensuite les déformations d'un modèle canonique estimé de la géométrie et de l'apparence de manière en ligne. Comme ce modèle canonique est invariant dans le temps, nous obtenons des correspondances même pour des mouvements de longue durée et de grande amplitude. Nous utilisons des représentations neuronales de scène pour paramétrer les composants de notre méthode. Comme les méthodes Dynamic-NeRF précédentes, nous utilisons un modèle de déformation inverse. Nous constatons que des adaptations non triviales de ce modèle sont nécessaires pour gérer des mouvements plus importants : nous décomposons les déformations en une composante grossière fortement régularisée et une composante fine faiblement régularisée, où la composante grossière étend également le champ de déformation dans l'espace entourant l'objet, ce qui permet un suivi dans le temps. Nous montrons expérimentalement que, contrairement aux travaux précédents qui ne gèrent que de petits mouvements, notre méthode permet la reconstruction de mouvements à l'échelle d'un studio.