Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Dit artikel presenteert een controleerbaar tekst-naar-video (T2V) diffusiemodel, genaamd Video-ControlNet, dat video's genereert die zijn geconditioneerd op een reeks controlesignalen, zoals rand- of dieptekaarten. Video-ControlNet is gebouwd op een vooraf getraind conditioneel tekst-naar-beeld (T2I) diffusiemodel door het integreren van een ruimtelijk-temporeel zelf-attentiemechanisme en trainbare temporele lagen voor efficiënte kruis-frame modellering. Een eerste-frame conditioneringstrategie wordt voorgesteld om het model te faciliteren bij het genereren van video's die zijn overgedragen vanuit het beelddomein, evenals video's van willekeurige lengte op een autoregressieve manier. Bovendien maakt Video-ControlNet gebruik van een nieuwe op residuen gebaseerde ruisinitialisatiestrategie om een bewegingsprior van een invoervideo te introduceren, wat resulteert in meer samenhangende video's. Met de voorgestelde architectuur en strategieën kan Video-ControlNet een resource-efficiënte convergentie bereiken en video's van superieure kwaliteit en consistentie genereren met fijnmazige controle. Uitgebreide experimenten tonen het succes aan in diverse videogeneratieve taken, zoals videobewerking en videostijloverdracht, waarbij het eerdere methoden overtreft in termen van consistentie en kwaliteit. Projectpagina: https://controlavideo.github.io/
Recente tekst-naar-beeldgeneratiemodellen hebben indrukwekkende mogelijkheden getoond voor het genereren van tekstuitgelijnde afbeeldingen met hoge kwaliteit. Het genereren van afbeeldingen van nieuwe concepten die door de gebruiker worden aangeleverd via een invoerafbeelding blijft echter een uitdagende taak. Om dit probleem aan te pakken, hebben onderzoekers verschillende methoden verkend voor het aanpassen van vooraf getrainde tekst-naar-beeldgeneratiemodellen. Momenteel houden de meeste bestaande methoden voor het aanpassen van vooraf getrainde tekst-naar-beeldgeneratiemodellen het gebruik van regularisatietechnieken in om overfitting te voorkomen. Hoewel regularisatie de uitdaging van aanpassing verlicht en succesvolle contentcreatie mogelijk maakt met betrekking tot tekstbegeleiding, kan het de mogelijkheden van het model beperken, wat resulteert in het verlies van gedetailleerde informatie en inferieure prestaties. In dit werk stellen we een nieuw raamwerk voor voor gepersonaliseerde tekst-naar-beeldgeneratie zonder het gebruik van regularisatie. Specifiek bestaat ons voorgestelde raamwerk uit een encodernetwerk en een nieuwe samplingmethode die het overfittingprobleem kan aanpakken zonder regularisatie te gebruiken. Met het voorgestelde raamwerk kunnen we een grootschalig tekst-naar-beeldgeneratiemodel aanpassen binnen een halve minuut op een enkele GPU, met slechts één afbeelding die door de gebruiker wordt aangeleverd. We tonen in experimenten aan dat ons voorgestelde raamwerk de bestaande methoden overtreft en meer fijngranulaire details behoudt.