Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Personalisatie is naar voren gekomen als een belangrijk aspect binnen het veld van generatieve AI, waardoor het mogelijk wordt om individuen in diverse contexten en stijlen te synthetiseren, terwijl een hoge trouw aan hun identiteit behouden blijft. Het personalisatieproces brengt echter inherente uitdagingen met zich mee op het gebied van tijd- en geheugenvereisten. Het finetunen van elk gepersonaliseerd model vereist een aanzienlijke investering in GPU-tijd, en het opslaan van een gepersonaliseerd model per onderwerp kan veeleisend zijn wat betreft opslagcapaciteit. Om deze uitdagingen te overwinnen, stellen wij HyperDreamBooth voor - een hypernetwerk dat in staat is om efficiënt een kleine set gepersonaliseerde gewichten te genereren vanuit een enkele afbeelding van een persoon. Door deze gewichten te integreren in het diffusiemodel, in combinatie met snel finetunen, kan HyperDreamBooth het gezicht van een persoon in verschillende contexten en stijlen genereren, met een hoog niveau van detail en terwijl het cruciale kennis van diverse stijlen en semantische aanpassingen van het model behouden blijft. Onze methode bereikt personalisatie van gezichten in ongeveer 20 seconden, 25x sneller dan DreamBooth en 125x sneller dan Textual Inversion, met slechts één referentieafbeelding, en met dezelfde kwaliteit en stijldiversiteit als DreamBooth. Bovendien levert onze methode een model op dat 10000x kleiner is dan een normaal DreamBooth-model. Projectpagina: https://hyperdreambooth.github.io
Text-to-image (T2I)-personalisatie stelt gebruikers in staat om het creatieve beeldgeneratieproces te sturen door hun eigen visuele concepten te combineren in natuurlijke taalprompts. Recent zijn encoder-gebaseerde technieken naar voren gekomen als een nieuwe effectieve aanpak voor T2I-personalisatie, waardoor de behoefte aan meerdere afbeeldingen en lange trainingstijden wordt verminderd. De meeste bestaande encoders zijn echter beperkt tot een domein met één klasse, wat hun vermogen om diverse concepten te verwerken belemmert. In dit werk stellen we een domein-agnostische methode voor die geen gespecialiseerde dataset of voorafgaande informatie over de gepersonaliseerde concepten vereist. We introduceren een nieuwe contrastieve regularisatietechniek om een hoge trouw aan de kenmerken van het doelconcept te behouden, terwijl de voorspelde embeddings dicht bij bewerkbare regio's van de latente ruimte blijven, door de voorspelde tokens naar hun dichtstbijzijnde bestaande CLIP-tokens te duwen. Onze experimentele resultaten tonen de effectiviteit van onze aanpak aan en laten zien hoe de geleerde tokens semantischer zijn dan tokens die door niet-geregulariseerde modellen worden voorspeld. Dit leidt tot een betere representatie die state-of-the-art prestaties bereikt, terwijl het flexibeler is dan eerdere methoden.
In dit artikel presenteren we een nieuwe aanpak om de kwaliteit en consistentie van gegenereerde outputs van grootschalige vooraf getrainde taalmmodellen (LLMs) te verbeteren. Zelfconsistentie is naar voren gekomen als een effectieve methode voor prompts met vaste antwoorden, waarbij het antwoord met het hoogste aantal stemmen wordt geselecteerd. In dit artikel introduceren we een algemeen kader voor zelfconsistentie dat de toepasbaarheid ervan uitbreidt buiten problemen met vaste antwoorden. Door middel van uitgebreide simulaties tonen we aan dat onze aanpak consistent het optimale of bijna optimale resultaat uit een set kandidaten terugwint. We stellen ook lichtgewicht parameter-vrije gelijkenisfuncties voor die significante en consistente verbeteringen laten zien bij codegeneratie, autoformaliserings- en samenvattings taken, zelfs zonder toegang tot token-logkansen. Onze methode veroorzaakt minimale rekenkundige overhead en vereist geen aanvullende herrangschikkingsmodellen of aanpassingen aan het bestaande model.
Het genereren van video's voor visuele verhalenvertelling kan een tijdrovend en complex proces zijn dat doorgaans live-action opnames of grafische animatierendering vereist. Om deze uitdagingen te omzeilen, is ons belangrijkste idee om gebruik te maken van de overvloed aan bestaande videofragmenten en een samenhangende verhalende video te synthetiseren door hun uiterlijk aan te passen. We bereiken dit door een raamwerk te ontwikkelen dat bestaat uit twee functionele modules: (i) Motion Structure Retrieval, dat videokandidaten biedt met de gewenste scène- of bewegingscontext zoals beschreven door zoekteksten, en (ii) Structure-Guided Text-to-Video Synthesis, dat plot-afgestemde video's genereert onder begeleiding van bewegingsstructuur en tekstprompts. Voor de eerste module maken we gebruik van een bestaand videoretrievalsysteem en extraheren we videodieptes als bewegingsstructuur. Voor de tweede module stellen we een controleerbaar videogeneratiemodel voor dat flexibele controle biedt over structuur en personages. De video's worden gesynthetiseerd door de structurele begeleiding en uiterlijke instructies te volgen. Om visuele consistentie tussen fragmenten te waarborgen, stellen we een effectieve conceptpersonaliseringsaanpak voor, die de specificatie van gewenste personage-identiteiten via tekstprompts mogelijk maakt. Uitgebreide experimenten tonen aan dat onze aanzienlijke voordelen vertoont ten opzichte van verschillende bestaande baseline-methoden.