papers.description
Nous présentons les vecteurs temporels, un outil simple pour adapter les modèles de langage à de nouvelles périodes temporelles. Les vecteurs temporels sont créés en affinant un modèle de langage sur des données provenant d'une seule période (par exemple, une année ou un mois), puis en soustrayant les poids du modèle pré-entraîné d'origine. Ce vecteur spécifie une direction dans l'espace des poids qui, comme le montrent nos expériences, améliore les performances sur les textes de cette période. Les vecteurs temporels spécialisés pour des périodes adjacentes semblent être positionnés plus proches les uns des autres dans une variété. En utilisant cette structure, nous interpolons entre les vecteurs temporels pour induire de nouveaux modèles qui performent mieux sur les périodes intermédiaires et futures, sans aucun entraînement supplémentaire. Nous démontrons la cohérence de nos résultats à travers différentes tâches, domaines, tailles de modèles et échelles temporelles. Nos résultats suggèrent que le temps est encodé dans l'espace des poids des modèles affinés.
Les récents progrès dans le domaine de la restauration d'images guidée par texte, basés sur le succès sans précédent des modèles de diffusion texte-à-image, ont conduit à des résultats exceptionnellement réalistes et visuellement plausibles. Cependant, il existe encore un potentiel significatif d'amélioration dans les modèles actuels de restauration texte-à-image, notamment en ce qui concerne un meilleur alignement des zones restaurées avec les instructions de l'utilisateur et la réalisation de restaurations en haute résolution. Par conséquent, dans cet article, nous présentons HD-Painter, une approche entièrement exempte d'entraînement qui suit précisément les instructions et s'adapte de manière cohérente à la restauration d'images en haute résolution. À cette fin, nous concevons la couche d'attention introvertie sensible aux instructions (PAIntA), qui améliore les scores d'auto-attention grâce aux informations des instructions, aboutissant à des générations mieux alignées avec le texte. Pour améliorer davantage la cohérence des instructions, nous introduisons le mécanisme de guidage des scores d'attention par re-pondération (RASG), intégrant de manière transparente une stratégie d'échantillonnage post-hoc dans la forme générale de DDIM pour éviter les décalages latents hors distribution. De plus, HD-Painter permet une extension à des échelles plus grandes grâce à une technique de super-résolution spécialement conçue pour la restauration, permettant de compléter les régions manquantes dans des images jusqu'à une résolution de 2K. Nos expériences démontrent que HD-Painter surpasse qualitativement et quantitativement les approches de pointe existantes, avec une amélioration impressionnante de la précision de génération de 61,4 % contre 51,9 %. Nous mettrons les codes à disposition publiquement à l'adresse suivante : https://github.com/Picsart-AI-Research/HD-Painter.
Les avancées récentes dans la tâche de génération de texte-à-3D exploitent des modèles de diffusion texte-à-image affinés pour produire des images multi-vues, suivies d'une reconstruction par NeRF. Cependant, les modèles de diffusion affinés de manière supervisée (SFT) existants souffrent encore d'incohérences multi-vues et des artefacts NeRF qui en résultent. Bien qu'un entraînement plus long avec SFT améliore la cohérence, il provoque également un décalage de distribution, ce qui réduit la diversité et les détails réalistes. Nous soutenons que l'affinage SFT des modèles de diffusion multi-vues ressemble à l'étape d'affinage par instruction du pipeline d'alignement des LLM et peut bénéficier des méthodes d'affinage par apprentissage par renforcement (RLFT). Essentiellement, les méthodes RLFT optimisent les modèles au-delà de leur distribution de données SFT en utilisant leurs propres sorties, atténuant ainsi efficacement le décalage de distribution. À cette fin, nous introduisons Carve3D, une méthode RLFT couplée à la métrique de Cohérence de Reconstruction Multi-vues (MRC), pour améliorer la cohérence des modèles de diffusion multi-vues. Pour calculer la MRC sur un ensemble d'images multi-vues, nous les comparons à leurs rendus correspondants du NeRF reconstruit aux mêmes points de vue. Nous validons la robustesse de la MRC avec des expériences approfondies menées sous des niveaux contrôlés d'incohérence. Nous améliorons l'algorithme RLFT de base pour stabiliser le processus d'entraînement, réduire le décalage de distribution et identifier les lois d'échelle. Grâce à des expériences qualitatives et quantitatives, ainsi qu'à une étude utilisateur, nous démontrons que Carve3D améliore la cohérence multi-vues, la qualité supérieure de la reconstruction NeRF qui en résulte, et un décalage de distribution minimal par rapport à un SFT plus long. Page du projet : https://desaixie.github.io/carve-3d.
Nous présentons ShowRoom3D, une approche en trois étapes pour générer des scènes 3D à l'échelle d'une pièce de haute qualité à partir de textes. Les méthodes précédentes utilisant des préalables de diffusion 2D pour optimiser les champs de radiance neuronaux (NeRF) afin de générer des scènes à l'échelle d'une pièce ont montré une qualité insatisfaisante. Cela est principalement attribué aux limitations des préalables 2D, qui manquent de conscience 3D, ainsi qu'aux contraintes dans la méthodologie d'entraînement. Dans cet article, nous utilisons un préalable de diffusion 3D, MVDiffusion, pour optimiser la scène 3D à l'échelle d'une pièce. Nos contributions se situent à deux niveaux. Premièrement, nous proposons un processus de sélection progressive des vues pour optimiser NeRF. Cela implique de diviser le processus d'entraînement en trois étapes, en élargissant progressivement la portée de l'échantillonnage des caméras. Deuxièmement, nous proposons une méthode de transformation de pose dans la deuxième étape. Cela garantira que MVDiffusion fournit un guidage de vue précis. En conséquence, ShowRoom3D permet la génération de pièces avec une intégrité structurelle améliorée, une clarté accrue depuis n'importe quelle vue, une répétition de contenu réduite et une cohérence plus élevée entre les différentes perspectives. Des expériences approfondies démontrent que notre méthode surpasse de manière significative les approches de pointe par une large marge en termes d'étude utilisateur.
Les avancées récentes dans la modélisation de la tête humaine permettent de générer des modèles 3D de tête plausibles grâce à des représentations neuronales. Cependant, la construction de modèles de tête complets et haute fidélité avec un contrôle explicite de l'animation reste un défi. De plus, compléter la géométrie de la tête à partir d'une observation partielle, par exemple provenant d'un capteur de profondeur, tout en préservant les détails, est souvent problématique pour les méthodes existantes. Nous introduisons un modèle génératif pour des maillages 3D de tête détaillés, basé sur un modèle morphable 3D articulé (3DMM) qui permet à la fois une animation explicite et la préservation des détails fins. Notre méthode est entraînée en deux étapes. Premièrement, nous enregistrons un modèle de tête paramétrique avec des déplacements de sommets sur chaque maillage du jeu de données NPHM récemment introduit, qui contient des scans 3D précis de têtes. Les déplacements estimés sont intégrés dans une disposition UV prédéfinie. Deuxièmement, nous entraînons un modèle StyleGAN pour généraliser les cartes UV de déplacements. La décomposition du modèle paramétrique et des déplacements de sommets de haute qualité nous permet d'animer le modèle et de le modifier sémantiquement. Nous démontrons les résultats de la génération inconditionnelle et de l'ajustement à des observations complètes ou partielles. La page du projet est disponible à l'adresse suivante : https://seva100.github.io/headcraft.