Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We presenteren aMUSEd, een open-source, lichtgewicht masked image model (MIM) voor tekst-naar-beeldgeneratie, gebaseerd op MUSE. Met slechts 10 procent van de parameters van MUSE, is aMUSEd gericht op snelle beeldgeneratie. Wij zijn van mening dat MIM onderbelicht is in vergelijking met latent diffusion, de heersende aanpak voor tekst-naar-beeldgeneratie. In vergelijking met latent diffusion vereist MIM minder inferentiestappen en is het beter interpreteerbaar. Bovendien kan MIM worden afgestemd om aanvullende stijlen te leren met slechts één afbeelding. Wij hopen verder onderzoek naar MIM aan te moedigen door de effectiviteit ervan te demonstreren op grootschalige tekst-naar-beeldgeneratie en reproduceerbare trainingscode vrij te geven. We geven ook checkpoints vrij voor twee modellen die direct beelden produceren met resoluties van 256x256 en 512x512.
We presenteren een raamwerk voor het genereren van volledige, fotorealistische avatars die gebaren maken volgens de conversatiedynamiek van een tweegesprek. Gegeven spraakaudio produceren we meerdere mogelijkheden van gebarenbewegingen voor een individu, inclusief gezicht, lichaam en handen. De kern van onze methode ligt in het combineren van de voordelen van steekproefdiversiteit door vectorquantisatie met de hoogfrequente details verkregen door diffusie om dynamischere, expressievere bewegingen te genereren. We visualiseren de gegenereerde bewegingen met behulp van zeer fotorealistische avatars die cruciale nuances in gebaren kunnen uitdrukken (bijvoorbeeld grijnzen en glimlachen). Om dit onderzoeksgebied te faciliteren, introduceren we een baanbrekende multi-view conversatiedataset die fotorealistische reconstructie mogelijk maakt. Experimenten tonen aan dat ons model passende en diverse gebaren genereert, wat beter presteert dan zowel diffusie- als VQ-alleen methoden. Bovendien benadrukt onze perceptuele evaluatie het belang van fotorealisme (in tegenstelling tot meshes) bij het nauwkeurig beoordelen van subtiele bewegingsdetails in conversatiegebaren. Code en dataset zijn online beschikbaar.
We presenteren Image Sculpting, een nieuw raamwerk voor het bewerken van 2D-afbeeldingen door tools uit de 3D-geometrie en -grafiek te integreren. Deze aanpak wijkt aanzienlijk af van bestaande methoden, die beperkt zijn tot 2D-ruimtes en doorgaans vertrouwen op tekstuele instructies, wat leidt tot ambiguïteit en beperkte controle. Image Sculpting zet 2D-objecten om in 3D, waardoor directe interactie met hun 3D-geometrie mogelijk wordt. Na bewerking worden deze objecten opnieuw gerenderd in 2D en samengevoegd met de originele afbeelding om hoogwaardige resultaten te produceren via een grof-naar-fijn verfijningsproces. Het raamwerk ondersteunt precieze, kwantificeerbare en fysisch plausibele bewerkingsopties zoals posebewerking, rotatie, translatie, 3D-compositie, uitsnijden en seriële toevoeging. Het markeert een eerste stap naar het combineren van de creatieve vrijheid van generatieve modellen met de precisie van grafische pijplijnen.
Vooruitgang in beelddiffusiemodellen heeft recentelijk geleid tot aanzienlijke verbeteringen in het genereren van hoogwaardige beelden. In combinatie met Neural Radiance Fields (NeRFs) hebben ze nieuwe mogelijkheden geopend voor 3D-generatie. De meeste generatieve 3D-benaderingen zijn echter objectgericht en het toepassen ervan op het bewerken van bestaande fotorealistische scènes is niet triviaal. Wij stellen SIGNeRF voor, een nieuwe benadering voor snelle en controleerbare NeRF-scènebewerking en scène-geïntegreerde objectgeneratie. Een nieuwe generatieve update-strategie zorgt voor 3D-consistentie in de bewerkte beelden, zonder iteratieve optimalisatie te vereisen. Wij ontdekken dat dieptegeconditioneerde diffusiemodellen van nature de mogelijkheid hebben om 3D-consistente aanzichten te genereren door een raster van beelden aan te vragen in plaats van enkele aanzichten. Op basis van deze inzichten introduceren we een multi-view referentieblad van gewijzigde beelden. Onze methode werkt een beeldcollectie consistent bij op basis van het referentieblad en verfijnt de originele NeRF in één keer met de nieuw gegenereerde beeldset. Door gebruik te maken van het diepteconditioneringsmechanisme van het beelddiffusiemodel, krijgen we fijne controle over de ruimtelijke locatie van de bewerking en handhaven we vormbegeleiding door een geselecteerd gebied of een extern mesh.
De op diffusie gebaseerde Singing Voice Conversion (SVC)-methoden hebben opmerkelijke prestaties bereikt, waarbij natuurlijke audio wordt geproduceerd met een hoge gelijkenis aan het doel-timbre. Het iteratieve samplingproces resulteert echter in een trage inferentiesnelheid, waardoor versnelling cruciaal wordt. In dit artikel stellen we CoMoSVC voor, een SVC-methode gebaseerd op een consistentiemodel, die zowel hoogwaardige generatie als snelle sampling beoogt te bereiken. Eerst wordt een op diffusie gebaseerd leraarmodel speciaal ontworpen voor SVC, en vervolgens wordt een studentmodel gedistilleerd onder zelfconsistentie-eigenschappen om éénstaps sampling te realiseren. Experimenten op een enkele NVIDIA GTX4090 GPU laten zien dat, hoewel CoMoSVC een aanzienlijk snellere inferentiesnelheid heeft dan het state-of-the-art (SOTA) op diffusie gebaseerde SVC-systeem, het nog steeds vergelijkbare of superieure conversieprestaties behaalt op basis van zowel subjectieve als objectieve metrieken. Audio samples en codes zijn beschikbaar op https://comosvc.github.io/.
Parallelle tekst-naar-spraakmodellen worden veelvuldig toegepast voor real-time spraaksynthese en bieden meer controleerbaarheid en een aanzienlijk sneller syntheseproces in vergelijking met conventionele auto-regressieve modellen. Hoewel parallelle modellen op veel vlakken voordelen bieden, zijn ze van nature ongeschikt voor incrementele synthese vanwege hun volledig parallelle architectuur, zoals de transformer. In dit werk stellen we Incremental FastPitch voor, een nieuwe variant van FastPitch die in staat is om incrementeel hoogwaardige Mel-chunks te produceren door de architectuur te verbeteren met chunk-gebaseerde FFT-blokken, te trainen met receptieve-veld-beperkte chunk-attentiemaskers en inferentie uit te voeren met vaste grootte van eerdere modeltoestanden. Experimentele resultaten tonen aan dat onze voorstel spraakkwaliteit kan leveren die vergelijkbaar is met de parallelle FastPitch, met een aanzienlijk lagere latentie die zelfs een kortere reactietijd mogelijk maakt voor real-time spraaktoepassingen.
DSLR-camera's kunnen meerdere zoomniveaus bereiken door de afstand tussen lenzen te veranderen of door lenstypes te wisselen. Deze technieken zijn echter niet mogelijk op smartphones vanwege ruimtebeperkingen. De meeste smartphonefabrikanten gebruiken een hybride zoomsysteem: meestal een Wide (W)-camera voor een laag zoomniveau en een Telephoto (T)-camera voor een hoog zoomniveau. Om zoomniveaus tussen W en T te simuleren, knippen deze systemen beelden van W uit en vergroten ze deze digitaal, wat leidt tot aanzienlijk detailverlies. In dit artikel stellen we een efficiënt systeem voor voor hybride zoom-superresolutie op mobiele apparaten, dat een synchroon paar van W- en T-opnames maakt en machine learning-modellen gebruikt om details van T naar W uit te lijnen en over te dragen. We ontwikkelen verder een adaptieve blendingmethode die rekening houdt met mismatches in scherptediepte, scène-occlusie, stroomonzekerheid en uitlijningsfouten. Om de domeinkloof te minimaliseren, ontwerpen we een dubbele telefooncamera-opstelling om real-world inputs en grondwaarheden vast te leggen voor begeleide training. Onze methode genereert een 12-megapixel beeld in 500ms op een mobiel platform en presteert gunstig in vergelijking met state-of-the-art methoden onder uitgebreide evaluatie in real-world scenario's.