Articles de recherche en IA sélectionnés quotidiennement avec traductions
La modification d'une région locale ou d'un objet spécifique dans une scène 3D représentée par un NeRF est un défi, principalement en raison de la nature implicite de la représentation de la scène. L'intégration cohérente d'un nouvel objet réaliste dans la scène ajoute un niveau de difficulté supplémentaire. Nous présentons Blended-NeRF, un cadre robuste et flexible pour éditer une région d'intérêt spécifique dans une scène NeRF existante, basé sur des invites textuelles ou des patchs d'image, ainsi qu'une boîte ROI 3D. Notre méthode exploite un modèle langage-image pré-entraîné pour orienter la synthèse vers une invite textuelle ou un patch d'image fourni par l'utilisateur, ainsi qu'un modèle MLP 3D initialisé sur une scène NeRF existante pour générer l'objet et l'intégrer dans une région spécifiée de la scène originale. Nous permettons une édition locale en localisant une boîte ROI 3D dans la scène d'entrée, et fusionnons de manière transparente le contenu synthétisé à l'intérieur de la ROI avec la scène existante en utilisant une nouvelle technique de fusion volumétrique. Pour obtenir des résultats naturels et cohérents en termes de vue, nous exploitons des connaissances géométriques existantes et nouvelles ainsi que des augmentations 3D pour améliorer la fidélité visuelle du résultat final. Nous testons notre cadre qualitativement et quantitativement sur une variété de scènes 3D réelles et d'invites textuelles, démontrant des résultats réalistes et cohérents en multi-vues avec une grande flexibilité et diversité par rapport aux méthodes de référence. Enfin, nous montrons l'applicabilité de notre cadre à plusieurs applications d'édition 3D, notamment l'ajout de nouveaux objets à une scène, la suppression/remplacement/modification d'objets existants, et la conversion de textures.
Le succès des systèmes de reconnaissance faciale basés sur l'apprentissage profond a suscité de sérieuses préoccupations en matière de vie privée en raison de leur capacité à permettre un suivi non autorisé des utilisateurs dans le monde numérique. Les méthodes existantes pour renforcer la confidentialité échouent à générer des images naturalistes capables de protéger la vie privée faciale sans compromettre l'expérience utilisateur. Nous proposons une nouvelle approche en deux étapes pour la protection de la vie privée faciale, qui repose sur la recherche de codes adverses dans la variété de faible dimension d'un modèle génératif pré-entraîné. La première étape inverse l'image faciale donnée dans l'espace latent et affine le modèle génératif pour obtenir une reconstruction précise de l'image à partir de son code latent. Cette étape produit une bonne initialisation, facilitant la génération de visages de haute qualité ressemblant à l'identité donnée. Par la suite, des invites textuelles de maquillage définies par l'utilisateur et une régularisation préservant l'identité sont utilisées pour guider la recherche de codes adverses dans l'espace latent. Des expériences approfondies démontrent que les visages générés par notre approche ont une transférabilité en boîte noire plus forte, avec un gain absolu de 12,06 % par rapport à l'approche de pointe en matière de protection de la vie privée faciale dans le cadre de la tâche de vérification faciale. Enfin, nous démontrons l'efficacité de l'approche proposée pour les systèmes commerciaux de reconnaissance faciale. Notre code est disponible à l'adresse https://github.com/fahadshamshad/Clip2Protect.