Dagelijks geselecteerde AI onderzoekspapers met vertalingen
In dit werk presenteren we MagicDance, een op diffusie gebaseerd model voor de overdracht van 2D menselijke bewegingen en gezichtsuitdrukkingen in uitdagende dansvideo's. Specifiek streven we ernaar om dansvideo's van elke gewenste identiteit te genereren, aangedreven door nieuwe pose-sequenties, terwijl de identiteit ongewijzigd blijft. Hiertoe stellen we een tweefasige trainingsstrategie voor om menselijke bewegingen en uiterlijk (bijv. gezichtsuitdrukkingen, huidskleur en kleding) te ontwarren, bestaande uit de voorafgaande training van een uiterlijk-controleblok en de verfijning van een uiterlijk-pose-gezamenlijk-controleblok over menselijke dansposes van dezelfde dataset. Onze nieuwe ontwerpkeuze maakt robuuste uiterlijkcontrole mogelijk met temporeel consistente bovenlichamen, gezichtskenmerken en zelfs achtergronden. Het model generaliseert ook goed naar onbekende menselijke identiteiten en complexe bewegingssequenties zonder de noodzaak van aanvullende verfijning met extra data met diverse menselijke kenmerken, door gebruik te maken van de voorkennis van beelddiffusiemodellen. Bovendien is het voorgestelde model gebruiksvriendelijk en kan het worden beschouwd als een plug-in module/extensie voor Stable Diffusion. We demonstreren ook de mogelijkheid van het model voor zero-shot 2D-animatiegeneratie, waardoor niet alleen de uiterlijkoverdracht van de ene naar de andere identiteit mogelijk is, maar ook cartoonachtige stilisering mogelijk wordt gemaakt op basis van alleen pose-inputs. Uitgebreide experimenten tonen onze superieure prestaties aan op de TikTok-dataset.
Grootschalige taalmodel (LLM)-gebaseerde spraaksynthese wordt veel gebruikt in zero-shot spraaksynthese. Ze vereisen echter grootschalige data en hebben dezelfde beperkingen als eerdere autoregressieve spraakmodellen, waaronder trage inferentiesnelheid en gebrek aan robuustheid. Dit artikel stelt HierSpeech++ voor, een snelle en krachtige zero-shot spraaksynthesizer voor tekst-naar-spraak (TTS) en stemconversie (VC). We hebben vastgesteld dat hiërarchische spraaksyntheseframeworks de robuustheid en expressiviteit van de synthetische spraak aanzienlijk kunnen verbeteren. Bovendien verbeteren we de natuurlijkheid en sprekerovereenkomst van synthetische spraak aanzienlijk, zelfs in zero-shot spraaksynthesescenario's. Voor tekst-naar-spraak gebruiken we het tekst-naar-vec-framework, dat een zelfsupervisie spraakrepresentatie en een F0-representatie genereert op basis van tekstrepresentaties en prosodieprompts. Vervolgens genereert HierSpeech++ spraak uit de gegenereerde vector, F0 en stemprompt. We introduceren verder een zeer efficiënt spraak-superresolutieframework van 16 kHz naar 48 kHz. De experimentele resultaten toonden aan dat de hiërarchische variational autoencoder een sterke zero-shot spraaksynthesizer kan zijn, aangezien het beter presteert dan LLM-gebaseerde en diffusie-gebaseerde modellen. Bovendien hebben we de eerste menselijke kwaliteit zero-shot spraaksynthese bereikt. Audiovoorbeelden en broncode zijn beschikbaar op https://github.com/sh-lee-prml/HierSpeechpp.
Wij stellen een methode voor om precieze en extreem snelle mesh-extractie mogelijk te maken vanuit 3D Gaussian Splatting. Gaussian Splatting is recentelijk zeer populair geworden omdat het realistische rendering oplevert terwijl het aanzienlijk sneller te trainen is dan NeRFs. Het is echter uitdagend om een mesh te extraheren uit de miljoenen kleine 3D-gaussiaanse functies, aangezien deze gaussiaanse functies na optimalisatie vaak ongeorganiseerd zijn en er tot nu toe geen methode is voorgesteld. Onze eerste belangrijke bijdrage is een regularisatieterm die ervoor zorgt dat de gaussiaanse functies goed uitlijnen met het oppervlak van de scène. Vervolgens introduceren we een methode die deze uitlijning benut om een mesh te extraheren uit de gaussiaanse functies met behulp van Poisson-reconstructie, wat snel, schaalbaar en detailbehoudend is, in tegenstelling tot het Marching Cubes-algoritme dat meestal wordt toegepast om meshes te extraheren uit Neural SDFs. Tot slot introduceren we een optionele verfijningsstrategie die gaussiaanse functies bindt aan het oppervlak van de mesh, en deze gaussiaanse functies en de mesh gezamenlijk optimaliseert via Gaussian Splatting-rendering. Hierdoor wordt het eenvoudig om de gaussiaanse functies te bewerken, te sculpten, te riggen, te animeren, te componeren en te herbelichten met traditionele software door de mesh te manipuleren in plaats van de gaussiaanse functies zelf. Het verkrijgen van zo'n bewerkbare mesh voor realistische rendering wordt met onze methode binnen enkele minuten bereikt, vergeleken met uren bij de state-of-the-art methoden voor neurale SDFs, terwijl een betere renderkwaliteit wordt geboden.
Ondanks indrukwekkende recente vooruitgang in tekst-naar-beeld diffusiemodellen, vereist het verkrijgen van hoogwaardige afbeeldingen vaak prompt engineering door mensen die expertise hebben ontwikkeld in het gebruik ervan. In dit werk presenteren we NeuroPrompts, een adaptief framework dat automatisch de prompt van een gebruiker verbetert om de kwaliteit van de gegenereerde afbeeldingen door tekst-naar-beeld modellen te verhogen. Ons framework maakt gebruik van beperkte tekstdecodering met een vooraf getraind taalmodel dat is aangepast om prompts te genereren die vergelijkbaar zijn met die van menselijke prompt engineers. Deze aanpak maakt hogere kwaliteit tekst-naar-beeld generaties mogelijk en biedt gebruikers controle over stilistische kenmerken via specificatie van beperkingssets. We demonstreren de bruikbaarheid van ons framework door een interactieve applicatie te creëren voor promptverbetering en beeldgeneratie met behulp van Stable Diffusion. Daarnaast voeren we experimenten uit met een grote dataset van door mensen gemaakte prompts voor tekst-naar-beeld generatie en tonen we aan dat onze aanpak automatisch verbeterde prompts produceert die resulteren in superieure beeldkwaliteit. We maken onze code, een screencast videodemo en een live demo-instantie van NeuroPrompts publiekelijk beschikbaar.
We presenteren een methode om interpreteerbare concept schuifregelaars te creëren die precieze controle mogelijk maken over attributen in beeldgeneraties van diffusiemodellen. Onze aanpak identificeert een richting met lage rang in de parameters die overeenkomt met één concept, terwijl interferentie met andere attributen wordt geminimaliseerd. Een schuifregelaar wordt gemaakt met behulp van een kleine set prompts of voorbeeldbeelden; zo kunnen schuifregelaarrichtingen worden gemaakt voor zowel tekstuele als visuele concepten. Concept Schuifregelaars zijn plug-and-play: ze kunnen efficiënt worden samengesteld en continu worden gemoduleerd, wat precieze controle over beeldgeneratie mogelijk maakt. In kwantitatieve experimenten in vergelijking met eerdere bewerkingstechnieken, tonen onze schuifregelaars sterkere gerichte bewerkingen met minder interferentie. We demonstreren schuifregelaars voor weer, leeftijd, stijlen en uitdrukkingen, evenals samenstellingen van schuifregelaars. We laten zien hoe schuifregelaars latenties van StyleGAN kunnen overbrengen voor intuïtieve bewerking van visuele concepten waarvoor tekstuele beschrijving moeilijk is. We ontdekken ook dat onze methode kan helpen bij het aanpakken van hardnekkige kwaliteitsproblemen in Stable Diffusion XL, waaronder het herstellen van objectvervormingen en het corrigeren van vervormde handen. Onze code, gegevens en getrainde schuifregelaars zijn beschikbaar op https://sliders.baulab.info/
We introduceren PhysGaussian, een nieuwe methode die fysisch onderbouwde Newtoniaanse dynamica naadloos integreert binnen 3D Gaussians om hoogwaardige synthese van nieuwe bewegingen te bereiken. Door gebruik te maken van een aangepaste Material Point Method (MPM), verrijkt onze aanpak 3D Gaussian kernels met fysisch betekenisvolle kinematische vervormingen en mechanische spanningsattributen, allemaal ontwikkeld in lijn met de principes van continuümmechanica. Een kenmerkend aspect van onze methode is de naadloze integratie tussen fysische simulatie en visuele rendering: beide componenten gebruiken dezelfde 3D Gaussian kernels als hun discrete representaties. Hierdoor is het niet nodig om driehoekige/tetraëdrische meshes, marching cubes, "cage meshes" of andere geometrische inbeddingen te gebruiken, wat het principe van "wat je ziet is wat je simuleert (WS^2)" benadrukt. Onze methode toont uitzonderlijke veelzijdigheid bij een breed scala aan materialen—waaronder elastische entiteiten, metalen, niet-Newtoniaanse vloeistoffen en granulaire materialen—en laat sterke mogelijkheden zien in het creëren van diverse visuele content met nieuwe gezichtspunten en bewegingen. Onze projectpagina is te vinden op: https://xpandora.github.io/PhysGaussian/
We stellen een Pose-Free Large Reconstruction Model (PF-LRM) voor voor het reconstrueren van een 3D-object uit enkele ongepositioneerde afbeeldingen, zelfs met weinig visuele overlap, terwijl tegelijkertijd de relatieve cameraposities worden geschat in ~1,3 seconden op een enkele A100 GPU. PF-LRM is een zeer schaalbare methode die gebruikmaakt van self-attention-blokken om informatie uit te wisselen tussen 3D-objecttokens en 2D-afbeeldingstokens; we voorspellen een grof puntenwolk voor elk beeld en gebruiken vervolgens een differentieerbare Perspective-n-Point (PnP)-oplosser om de cameraposities te verkrijgen. Wanneer getraind op een enorme hoeveelheid multi-view gepositioneerde data van ~1M objecten, toont PF-LRM een sterke generalisatiecapaciteit over verschillende datasets en overtreft het baseline-methoden met een grote marge wat betreft nauwkeurigheid van positievoorspelling en kwaliteit van 3D-reconstructie op diverse onbekende evaluatiedatasets. We demonstreren ook de toepasbaarheid van ons model in downstream tekst/afbeelding-naar-3D-taken met snelle feed-forward-inferentie. Onze projectwebsite is te vinden op: https://totoro97.github.io/pf-lrm.
Recente vooruitgang in tekst-naar-video-generatie heeft de kracht van diffusiemodellen benut om visueel aantrekkelijke inhoud te creëren die is afgestemd op tekstprompts. Deze methoden kampen echter vaak met hoge rekenkosten en hebben moeite om video’s met samenhangende fysieke bewegingen te produceren. Om deze problemen aan te pakken, stellen we GPT4Motion voor, een trainingsvrij raamwerk dat gebruikmaakt van de planningscapaciteit van grote taalmodelen zoals GPT, de fysieke simulatiekracht van Blender en de uitstekende beeldgeneratiecapaciteit van tekst-naar-beeld-diffusiemodellen om de kwaliteit van videosynthese te verbeteren. Specifiek gebruikt GPT4Motion GPT-4 om een Blender-script te genereren op basis van een gebruikersprompt, dat de ingebouwde fysica-engine van Blender aanstuurt om fundamentele scènecomponenten te creëren die samenhangende fysieke bewegingen over frames vastleggen. Vervolgens worden deze componenten ingevoerd in Stable Diffusion om een video te genereren die aansluit bij de tekstprompt. Experimentele resultaten op drie basisscenario’s van fysieke beweging, waaronder het laten vallen en botsen van rigide objecten, het draperen en zwaaien van stof, en vloeistofstroming, tonen aan dat GPT4Motion efficiënt hoogwaardige video’s kan genereren waarbij bewegingen samenhangend blijven en entiteiten consistent zijn. GPT4Motion biedt nieuwe inzichten in tekst-naar-video-onderzoek, verbetert de kwaliteit ervan en verbreedt de horizon voor toekomstige verkenningen.