papers.description
Das Bearbeiten einer lokalen Region oder eines spezifischen Objekts in einer 3D-Szene, die durch ein NeRF dargestellt wird, ist aufgrund der impliziten Natur der Szenendarstellung eine Herausforderung. Die konsistente Einbindung eines neuen realistischen Objekts in die Szene erhöht die Schwierigkeit zusätzlich. Wir präsentieren Blended-NeRF, ein robustes und flexibles Framework zur Bearbeitung eines spezifischen Bereichs von Interesse in einer bestehenden NeRF-Szene, basierend auf Textprompts oder Bildausschnitten, zusammen mit einem 3D-ROI-Bereich. Unsere Methode nutzt ein vortrainiertes Sprach-Bild-Modell, um die Synthese in Richtung eines vom Benutzer bereitgestellten Textprompts oder Bildausschnitts zu steuern, sowie ein 3D-MLP-Modell, das auf einer bestehenden NeRF-Szene initialisiert ist, um das Objekt zu generieren und es in einen spezifizierten Bereich der ursprünglichen Szene einzubinden. Wir ermöglichen lokale Bearbeitungen, indem wir einen 3D-ROI-Bereich in der Eingabeszene lokalisieren und den innerhalb des ROI synthetisierten Inhalt nahtlos mit der bestehenden Szene mithilfe einer neuartigen volumetrischen Blending-Technik verbinden. Um natürlich aussehende und sichtkonsistente Ergebnisse zu erzielen, nutzen wir bestehende und neue geometrische Prioritäten sowie 3D-Augmentierungen, um die visuelle Qualität des Endergebnisses zu verbessern. Wir testen unser Framework sowohl qualitativ als auch quantitativ an einer Vielzahl realer 3D-Szenen und Textprompts und demonstrieren realistische, multi-view-konsistente Ergebnisse mit deutlich größerer Flexibilität und Vielfalt im Vergleich zu den Baselines. Schließlich zeigen wir die Anwendbarkeit unseres Frameworks für mehrere 3D-Bearbeitungsanwendungen, einschließlich dem Hinzufügen neuer Objekte zu einer Szene, dem Entfernen/Ersetzen/Verändern bestehender Objekte und der Texturkonvertierung.
Der Erfolg von Deep-Learning-basierten Gesichtserkennungssystemen hat ernsthafte Datenschutzbedenken aufgeworfen, da sie die unbefugte Verfolgung von Nutzern in der digitalen Welt ermöglichen. Bisherige Methoden zur Verbesserung des Datenschutzes scheitern daran, naturalistische Bilder zu erzeugen, die den Gesichtsdatenschutz gewährleisten, ohne die Benutzererfahrung zu beeinträchtigen. Wir schlagen einen neuartigen zweistufigen Ansatz zum Schutz der Gesichtsprivatheit vor, der auf der Suche nach adversariellen latenten Codes in der niedrigdimensionalen Mannigfaltigkeit eines vortrainierten generativen Modells basiert. Im ersten Schritt wird das gegebene Gesichtsbild in den latenten Raum invertiert und das generative Modell feinabgestimmt, um eine präzise Rekonstruktion des gegebenen Bildes aus seinem latenten Code zu erreichen. Dieser Schritt liefert eine gute Initialisierung, die die Erzeugung hochwertiger Gesichter unterstützt, die der gegebenen Identität ähneln. Anschließend werden benutzerdefinierte Make-up-Textprompts und identitätserhaltende Regularisierung verwendet, um die Suche nach adversariellen Codes im latenten Raum zu steuern. Umfangreiche Experimente zeigen, dass die mit unserem Ansatz erzeugten Gesichter eine stärkere Black-Box-Übertragbarkeit aufweisen, mit einem absoluten Gewinn von 12,06 % gegenüber dem aktuellsten Ansatz zum Schutz der Gesichtsprivatheit bei der Gesichtsverifikationsaufgabe. Schließlich demonstrieren wir die Wirksamkeit des vorgeschlagenen Ansatzes für kommerzielle Gesichtserkennungssysteme. Unser Code ist verfügbar unter https://github.com/fahadshamshad/Clip2Protect.