Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Drag-gebaseerde beeldbewerking heeft recentelijk aan populariteit gewonnen vanwege de interactiviteit en precisie. Echter, ondanks de mogelijkheid van tekst-naar-beeld modellen om binnen een seconde monsters te genereren, loopt drag-bewerking nog achter vanwege de uitdaging om de gebruikersinteractie nauwkeurig weer te geven terwijl de beeldinhoud behouden blijft. Sommige bestaande benaderingen vertrouwen op rekenintensieve optimalisatie per beeld of ingewikkelde op begeleiding gebaseerde methoden, waarbij aanvullende invoer zoals maskers voor verplaatsbare gebieden en tekstprompts nodig zijn, wat de interactiviteit van het bewerkingsproces compromitteert. Wij introduceren InstantDrag, een optimalisatievrije pijplijn die de interactiviteit en snelheid verbetert, waarbij alleen een afbeelding en een sleepinstructie als invoer nodig zijn. InstantDrag bestaat uit twee zorgvuldig ontworpen netwerken: een sleep-geconditioneerde optische stroomgenerator (FlowGen) en een optische stroom-geconditioneerd diffusiemodel (FlowDiffusion). InstantDrag leert bewegingsdynamiek voor drag-gebaseerde beeldbewerking in real-world video datasets door de taak op te splitsen in bewegingsgeneratie en beweging-geconditioneerde beeldgeneratie. We tonen de capaciteit van InstantDrag aan om snelle, fotorealistische bewerkingen uit te voeren zonder maskers of tekstprompts via experimenten op gezichtsvideo datasets en algemene scènes. Deze resultaten benadrukken de efficiëntie van onze benadering in het omgaan met drag-gebaseerde beeldbewerking, waardoor het een veelbelovende oplossing is voor interactieve, real-time toepassingen.
Het animeren van verschillende karaktertekeningen is een boeiende taak voor het creëren van visuele inhoud. Gegeven een enkele karaktertekening, zijn bestaande animatiemethoden beperkt tot platte 2D-bewegingen en missen daardoor 3D-effecten. Een alternatieve oplossing is om een 3D-model te reconstrueren vanuit een karaktertekening als een proxy en vervolgens 3D-bewegingsgegevens erop te richten. Echter, de bestaande beeld-naar-3D methoden werken niet goed voor amateur karaktertekeningen wat betreft uiterlijk en geometrie. We merken op dat de contourlijnen, die vaak voorkomen in karaktertekeningen, aanzienlijke ambiguïteit zouden introduceren in textuursynthese vanwege hun afhankelijkheid van het zicht. Bovendien zijn dunne gebieden die worden vertegenwoordigd door enkelvoudige contourlijnen moeilijk te reconstrueren (bijv. slanke ledematen van een stokfiguur) vanwege hun delicate structuren. Om deze problemen aan te pakken, stellen we een nieuw systeem voor, DrawingSpinUp, om geloofwaardige 3D-animaties te produceren en leven in karaktertekeningen te blazen, waardoor ze vrij kunnen opstarten, springen en zelfs een hip-hop dans kunnen uitvoeren. Voor verbetering van het uiterlijk hanteren we een strategie van verwijderen en vervolgens herstellen om eerst de zichtafhankelijke contourlijnen te verwijderen en ze vervolgens terug te renderen na het richten van het gereconstrueerde karakter. Voor verfijning van de geometrie ontwikkelen we een op skelet gebaseerd verdunningsvervormingsalgoritme om de slanke structuren die worden vertegenwoordigd door de enkelvoudige contourlijnen te verfijnen. De experimentele evaluaties en een perceptuele gebruikersstudie tonen aan dat onze voorgestelde methode beter presteert dan de bestaande 2D- en 3D-animatiemethoden en hoogwaardige 3D-animaties genereert vanuit een enkele karaktertekening. Raadpleeg alstublieft onze projectpagina (https://lordliang.github.io/DrawingSpinUp) voor de code en gegenereerde animaties.
Open-vocabulary detection (OVD) heeft als doel objecten te detecteren die buiten een vooraf gedefinieerde set categorieën vallen. Als een baanbrekend model dat de YOLO-serie integreert in OVD, is YOLO-World goed geschikt voor scenario's waar snelheid en efficiëntie prioriteit hebben. De prestaties worden echter belemmerd door zijn nekkenmerkfusiemechanisme, dat zorgt voor een kwadratische complexiteit en beperkte geleide receptieve velden. Om deze beperkingen aan te pakken, presenteren we Mamba-YOLO-World, een nieuw YOLO-gebaseerd OVD-model dat gebruikmaakt van het voorgestelde MambaFusion Path Aggregation Network (MambaFusion-PAN) als zijn nekarchitectuur. Specifiek introduceren we een innovatief featurefusiemechanisme op basis van een State Space Model, bestaande uit een Parallel-Guided Selective Scan-algoritme en een Serial-Guided Selective Scan-algoritme met lineaire complexiteit en wereldwijd geleide receptieve velden. Het maakt gebruik van multimodale invoerreeksen en mamba-verborgen toestanden om het selectieve scanproces te begeleiden. Experimenten tonen aan dat ons model beter presteert dan het originele YOLO-World op de COCO- en LVIS-benchmarks in zowel zero-shot als fine-tuning instellingen, terwijl het vergelijkbare parameters en FLOPs behoudt. Bovendien overtreft het bestaande state-of-the-art OVD-methoden met minder parameters en FLOPs.
Het opnieuw verlichten van stralingsvelden is zeer slecht geconditioneerd voor multi-view data, die meestal worden vastgelegd onder één verlichtingsconditie; Het is vooral moeilijk voor volledige scènes met meerdere objecten. We introduceren een methode om relightable stralingsvelden te creëren met behulp van dergelijke single-illumination data door gebruik te maken van priors die zijn geëxtraheerd uit 2D-beeldverspreidingsmodellen. We stemmen eerst een 2D-verspreidingsmodel af op een multi-verlichtingsdataset geconditioneerd door lichtrichting, waardoor we een single-illumination opname kunnen uitbreiden tot een realistische - maar mogelijk inconsistente - multi-verlichtingsdataset vanuit direct gedefinieerde lichtrichtingen. We gebruiken deze uitgebreide data om een relightable stralingsveld te creëren dat wordt gerepresenteerd door 3D-Gaussische splats. Om directe controle over lichtrichting voor laagfrequente verlichting mogelijk te maken, stellen we uiterlijk voor met behulp van een multi-layer perceptron geparametriseerd op lichtrichting. Om multi-view consistentie af te dwingen en onnauwkeurigheden te overwinnen, optimaliseren we een per-image hulpkenmerkvector. We tonen resultaten op synthetische en echte multi-view data onder enkele verlichting, waarbij wordt aangetoond dat onze methode succesvol gebruikmaakt van 2D-verspreidingsmodel-priors om realistische 3D-relighting voor complete scènes mogelijk te maken. Project site https://repo-sam.inria.fr/fungraph/generative-radiance-field-relighting/
Volumetrische video vertegenwoordigt een transformerende vooruitgang in visuele media, waardoor gebruikers vrij kunnen navigeren door meeslepende virtuele ervaringen en de kloof tussen digitale en echte werelden verkleinen. Echter, de noodzaak van uitgebreide handmatige interventie om mesh-sequenties te stabiliseren en de generatie van overdreven grote assets in bestaande workflows belemmert een bredere adoptie. In dit artikel presenteren we een nieuw op Gauss gebaseerde benadering, genaamd DualGS, voor real-time en hoogwaardige weergave van complex menselijk optreden met uitstekende compressieverhoudingen. Ons belangrijkste idee in DualGS is om beweging en uiterlijk afzonderlijk voor te stellen met behulp van de overeenkomstige huid- en gewrichtsgaussianen. Een dergelijke expliciete ontvlechting kan de bewegingsredundantie aanzienlijk verminderen en de temporele coherentie verbeteren. We beginnen door DualGS te initialiseren en huid-Gaussianen te verankeren aan gewrichts-Gaussianen bij het eerste frame. Vervolgens passen we een grof-naar-fijne trainingsstrategie toe voor frame-voor-frame modellering van menselijk optreden. Dit omvat een grove uitlijnfase voor algemene bewegingsvoorspelling en een fijnmazige optimalisatie voor robuuste tracking en hoogwaardige rendering. Om volumetrische video naadloos te integreren in VR-omgevingen, comprimeren we beweging efficiënt met entropie-encoding en uiterlijk met codec-compressie in combinatie met een persistent codeboek. Onze benadering bereikt een compressieverhouding tot 120 keer, waarbij slechts ongeveer 350KB opslag per frame nodig is. We tonen de doeltreffendheid van onze representatie aan door fotorealistische, vrij te bekijken ervaringen op VR-headsets, waardoor gebruikers op meeslepende wijze muzikanten in optredens kunnen bekijken en het ritme van de noten aan de vingertoppen van de artiesten kunnen voelen.
Audiorestauratie is steeds belangrijker geworden in de moderne samenleving, niet alleen vanwege de vraag naar hoogwaardige auditieve ervaringen mogelijk gemaakt door geavanceerde afspeelapparaten, maar ook omdat de groeiende mogelijkheden van generatieve audiomodellen hoogwaardige audio vereisen. Over het algemeen wordt audiorestauratie gedefinieerd als een taak om onvervormde audio te voorspellen van beschadigde invoer, vaak getraind met behulp van een GAN-framework om perceptie en vervorming in balans te brengen. Aangezien audiodegradatie voornamelijk geconcentreerd is in het midden- en hoogfrequente bereik, vooral door codecs, ligt de belangrijkste uitdaging in het ontwerpen van een generator die in staat is om laagfrequente informatie te behouden terwijl hij nauwkeurig hoogwaardige midden- en hoogfrequente inhoud reconstrueert. Geïnspireerd door recente ontwikkelingen in muziekscheiding met hoge samplefrequentie, spraakverbetering en audiocodecmodellen, stellen we Apollo voor, een generatief model ontworpen voor audiorestauratie met hoge samplefrequentie. Apollo maakt gebruik van een expliciete frequentieband splitsingsmodule om de relaties tussen verschillende frequentiebanden te modelleren, waardoor meer coherente en hogere kwaliteit herstelde audio mogelijk is. Geëvalueerd op de MUSDB18-HQ en MoisesDB datasets, presteert Apollo consequent beter dan bestaande SR-GAN-modellen bij verschillende bitsnelheden en muziekgenres, vooral uitblinkend in complexe scenario's met mixen van meerdere instrumenten en vocalen. Apollo verbetert aanzienlijk de kwaliteit van muziekrestauratie met behoud van rekenkundige efficiëntie. De broncode voor Apollo is openbaar beschikbaar op https://github.com/JusperLee/Apollo.
Recente ontwikkelingen in generatieve modellen hebben de beeldgeneratie en -bewerking gerevolutioneerd, waardoor deze taken toegankelijk zijn geworden voor niet-experts. Dit artikel richt zich op lokale beeldbewerking, met name op de taak van het toevoegen van nieuwe inhoud aan een losjes gespecificeerd gebied. Bestaande methoden vereisen vaak een nauwkeurige masker of een gedetailleerde beschrijving van de locatie, wat omslachtig en foutgevoelig kan zijn. Wij stellen Click2Mask voor, een nieuw benadering die het lokale bewerkingsproces vereenvoudigt door alleen een enkel referentiepunt te vereisen (naast de inhoudsbeschrijving). Tijdens een Blended Latent Diffusion (BLD) proces wordt een masker dynamisch uitgebreid rond dit punt, geleid door een gemaskerd CLIP-gebaseerd semantisch verlies. Click2Mask overtreft de beperkingen van op segmentatie gebaseerde en afhankelijke methoden voor fijnafstemming, en biedt een meer gebruiksvriendelijke en contextueel nauwkeurige oplossing. Onze experimenten tonen aan dat Click2Mask niet alleen de inspanning van de gebruiker minimaliseert, maar ook competitieve of superieure resultaten levert voor lokale beeldmanipulatie in vergelijking met state-of-the-art methoden, volgens zowel menselijke beoordeling als automatische metrieken. Belangrijke bijdragen zijn onder meer de vereenvoudiging van gebruikersinvoer, de mogelijkheid om objecten vrij toe te voegen zonder beperkingen van bestaande segmenten, en het integratiepotentieel van onze dynamische maskerbenadering binnen andere bewerkingsmethoden.