Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Recente vooruitgang in gepersonaliseerde beeldgeneratie met behulp van diffusiemodellen is aanzienlijk geweest. De ontwikkeling op het gebied van open-domein en niet-fine-tuning gepersonaliseerde beeldgeneratie verloopt echter vrij traag. In dit artikel stellen we Subject-Diffusion voor, een nieuw open-domein gepersonaliseerd beeldgeneratiemodel dat, naast het niet vereisen van fine-tuning tijdens de testfase, ook slechts één referentiebeeld nodig heeft om gepersonaliseerde generatie van één of meerdere onderwerpen in elk domein te ondersteunen. Ten eerste construeren we een automatisch hulpmiddel voor datalabeling en gebruiken we de LAION-Aesthetics dataset om een grootschalige dataset te construeren die bestaat uit 76 miljoen afbeeldingen en hun bijbehorende detectiekaders voor onderwerpen, segmentatiemaskers en tekstbeschrijvingen. Ten tweede ontwerpen we een nieuw geïntegreerd raamwerk dat tekst- en beeld semantiek combineert door grove locatie en gedetailleerde referentiebeeldcontrole te incorporeren om de onderwerptrouw en generalisatie te maximaliseren. Bovendien nemen we ook een aandachtcontrolemechanisme over om de generatie van meerdere onderwerpen te ondersteunen. Uitgebreide kwalitatieve en kwantitatieve resultaten tonen aan dat onze methode andere state-of-the-art raamwerken overtreft in de generatie van enkele, meerdere en door mensen aangepaste afbeeldingen. Raadpleeg onze https://oppo-mente-lab.github.io/subject_diffusion/{projectpagina}.
Neural Radiance Fields (NeRF) hebben het potentieel om een belangrijke representatie van media te worden. Aangezien het trainen van een NeRF nooit een eenvoudige taak is geweest, zou de bescherming van het modelcopyright een prioriteit moeten zijn. In dit artikel analyseren we de voor- en nadelen van mogelijke oplossingen voor copyrightbescherming en stellen we voor om het copyright van NeRF-modellen te beschermen door de originele kleurrepresentatie in NeRF te vervangen door een watermerk-kleurrepresentatie. Vervolgens wordt een vervormingsbestendig renderingschema ontworpen om een robuuste berichtextractie te garanderen in 2D-renderingen van NeRF. Onze voorgestelde methode kan het copyright van NeRF-modellen direct beschermen, terwijl een hoge renderkwaliteit en bitnauwkeurigheid worden behouden in vergelijking met andere optionele oplossingen.
Met de recente vooruitgang in Neural Radiance Fields (NeRF) die hoogwaardige 3D-gezichtsreconstructie en synthese van nieuwe gezichtspunten mogelijk hebben gemaakt, is ook de manipulatie ervan een essentiële taak geworden in 3D-visie. Bestaande manipulatiemethoden vereisen echter veel menselijke arbeid, zoals een door de gebruiker aangegeven semantisch masker en handmatige zoekopdrachten naar attributen, wat niet geschikt is voor niet-deskundige gebruikers. In plaats daarvan is onze aanpak ontworpen om slechts één tekst te vereisen om een met NeRF gereconstrueerd gezicht te manipuleren. Hiervoor trainen we eerst een scenemanipulator, een latent code-conditioneel vervormbaar NeRF, over een dynamische scène om een gezichtsvervorming te besturen met behulp van de latent code. Het representeren van een scènevervorming met een enkele latent code is echter ongunstig voor het samenstellen van lokale vervormingen die in verschillende instanties worden waargenomen. Daarom leert onze voorgestelde Position-conditional Anchor Compositor (PAC) om een gemanipuleerde scène te representeren met ruimtelijk variërende latent codes. Hun weergaven met de scenemanipulator worden vervolgens geoptimaliseerd om een hoge cosinusgelijkenis te bereiken met een doeltekst in de CLIP-embeddingruimte voor tekstgestuurde manipulatie. Voor zover wij weten, is onze aanpak de eerste die de tekstgestuurde manipulatie van een met NeRF gereconstrueerd gezicht aanpakt. Uitgebreide resultaten, vergelijkingen en ablatiestudies demonstreren de effectiviteit van onze aanpak.
Ondanks het opmerkelijke succes van diffusiemodellen in beeldgeneratie, blijft trage sampling een hardnekkig probleem. Om het samplingproces te versnellen, hebben eerdere studies diffusiesampling herformuleerd als een ODE/SDE en hogere-orde numerieke methoden geïntroduceerd. Deze methoden produceren echter vaak divergentie-artefacten, vooral bij een laag aantal samplingstappen, wat de haalbare versnelling beperkt. In dit artikel onderzoeken we de mogelijke oorzaken van deze artefacten en suggereren we dat de kleine stabiliteitsregio's van deze methoden de belangrijkste oorzaak zouden kunnen zijn. Om dit probleem aan te pakken, stellen we twee nieuwe technieken voor. De eerste techniek omvat de integratie van Heavy Ball (HB)-momentum, een bekende techniek voor het verbeteren van optimalisatie, in bestaande numerieke diffusiemethoden om hun stabiliteitsregio's uit te breiden. We bewijzen ook dat de resulterende methoden convergentie van de eerste orde hebben. De tweede techniek, genaamd Generalized Heavy Ball (GHVB), construeert een nieuwe hogere-orde methode die een variabele afweging biedt tussen nauwkeurigheid en artefactonderdrukking. Experimentele resultaten tonen aan dat onze technieken zeer effectief zijn in het verminderen van artefacten en het verbeteren van beeldkwaliteit, en ze overtreffen state-of-the-art diffusie-oplossers op zowel pixelgebaseerde als latent-gebaseerde diffusiemodellen voor sampling met weinig stappen. Ons onderzoek biedt nieuwe inzichten in het ontwerp van numerieke methoden voor toekomstig diffusiewerk.