Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Het succes van deep learning-gebaseerde gezichtsherkenningssystemen heeft geleid tot ernstige privacyzorgen vanwege hun vermogen om ongeautoriseerde tracking van gebruikers in de digitale wereld mogelijk te maken. Bestaande methoden voor het verbeteren van de privacy slagen er niet in om naturalistische afbeeldingen te genereren die gezichtsprivacy kunnen beschermen zonder de gebruikerservaring aan te tasten. Wij stellen een nieuwe tweestapsaanpak voor voor gezichtsprivacybescherming die vertrouwt op het vinden van adversariële latente codes in de laagdimensionale variëteit van een vooraf getraind generatief model. De eerste stap keert het gegeven gezichtsbeeld om in de latente ruimte en finetunt het generatieve model om een nauwkeurige reconstructie van het gegeven beeld uit zijn latente code te bereiken. Deze stap produceert een goede initialisatie, wat helpt bij het genereren van hoogwaardige gezichten die lijken op de gegeven identiteit. Vervolgens worden door de gebruiker gedefinieerde make-uptekstprompts en identiteitsbehoudende regularisatie gebruikt om de zoektocht naar adversariële codes in de latente ruimte te begeleiden. Uitgebreide experimenten tonen aan dat gezichten die door onze aanpak worden gegenereerd een sterkere black-box overdraagbaarheid hebben, met een absolute winst van 12,06% ten opzichte van de state-of-the-art aanpak voor gezichtsprivacybescherming onder de gezichtsverificatietaak. Tot slot demonstreren we de effectiviteit van de voorgestelde aanpak voor commerciële gezichtsherkenningssystemen. Onze code is beschikbaar op https://github.com/fahadshamshad/Clip2Protect.
Het bewerken van een lokaal gebied of een specifiek object in een 3D-scène die wordt weergegeven door een NeRF is uitdagend, voornamelijk vanwege de impliciete aard van de scèneweergave. Het consistent integreren van een nieuw realistisch object in de scène voegt een extra moeilijkheidsgraad toe. Wij presenteren Blended-NeRF, een robuust en flexibel raamwerk voor het bewerken van een specifiek interessegebied in een bestaande NeRF-scène, gebaseerd op tekstprompts of beeldpatches, samen met een 3D ROI-box. Onze methode maakt gebruik van een vooraf getraind taal-beeldmodel om de synthese te sturen naar een door de gebruiker verstrekte tekstprompt of beeldpatch, samen met een 3D MLP-model dat is geïnitialiseerd op een bestaande NeRF-scène om het object te genereren en het te integreren in een gespecificeerd gebied in de oorspronkelijke scène. We maken lokale bewerking mogelijk door een 3D ROI-box te lokaliseren in de ingevoerde scène, en we integreren de inhoud die binnen de ROI is gesynthetiseerd naadloos met de bestaande scène met behulp van een nieuwe volumetrische blendingtechniek. Om natuurlijk ogende en consistent weergave-resultaten te verkrijgen, maken we gebruik van bestaande en nieuwe geometrische priors en 3D-augmentaties om de visuele kwaliteit van het eindresultaat te verbeteren. We testen ons raamwerk zowel kwalitatief als kwantitatief op een verscheidenheid aan echte 3D-scènes en tekstprompts, waarbij we realistische, multi-view consistente resultaten demonstreren met veel flexibiliteit en diversiteit in vergelijking met de baselines. Tot slot tonen we de toepasbaarheid van ons raamwerk voor verschillende 3D-bewerkingstoepassingen, waaronder het toevoegen van nieuwe objecten aan een scène, het verwijderen/vervangen/aanpassen van bestaande objecten, en textuurconversie.