Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Recente vooruitgang in tekst-naar-beeldgeneratie heeft opmerkelijke vooruitgang geboekt in het synthetiseren van realistische menselijke foto's op basis van gegeven tekstprompts. Bestaande gepersonaliseerde generatiemethoden kunnen echter niet tegelijkertijd voldoen aan de eisen van hoge efficiëntie, veelbelovende identiteit (ID)-trouw en flexibele tekstbestuurbaarheid. In dit werk introduceren we PhotoMaker, een efficiënte gepersonaliseerde tekst-naar-beeldgeneratiemethode, die voornamelijk een willekeurig aantal invoer-ID-afbeeldingen codeert in een stapel-ID-embedding om ID-informatie te behouden. Zo'n embedding, die dient als een uniforme ID-representatie, kan niet alleen de kenmerken van dezelfde invoer-ID uitgebreid omvatten, maar ook de kenmerken van verschillende ID's accommoderen voor latere integratie. Dit opent de weg voor meer intrigerende en praktisch waardevolle toepassingen. Daarnaast stellen we, om de training van onze PhotoMaker aan te sturen, een ID-gerichte dataconstructiepijplijn voor om de trainingsdata samen te stellen. Onder de voeding van de dataset die is geconstrueerd via de voorgestelde pijplijn, toont onze PhotoMaker een betere ID-behoudvermogen dan methoden die gebaseerd zijn op fine-tuning tijdens de testfase, terwijl het significante snelheidsverbeteringen, hoogwaardige generatieresultaten, sterke generalisatiecapaciteiten en een breed scala aan toepassingen biedt. Onze projectpagina is beschikbaar op https://photo-maker.github.io/.
Het synthetiseren van semantisch bewuste, langetermijn mens-object interacties is cruciaal voor het simuleren van realistische menselijke gedragingen. In dit werk pakken we het uitdagende probleem aan van het genereren van gesynchroniseerde objectbewegingen en menselijke bewegingen die worden gestuurd door taal beschrijvingen in 3D-scènes. We stellen Controllable Human-Object Interaction Synthesis (CHOIS) voor, een aanpak die objectbewegingen en menselijke bewegingen gelijktijdig genereert met behulp van een conditioneel diffusiemodel, gegeven een taal beschrijving, initiële object- en menselijke toestanden, en spaarzame object waypoints. Terwijl taal beschrijvingen stijl en intentie informeren, verankeren waypoints de beweging in de scène en kunnen ze effectief worden geëxtraheerd met behulp van hoogwaardige planningsmethoden. Het naïef toepassen van een diffusiemodel faalt in het voorspellen van objectbewegingen die zijn afgestemd op de ingevoerde waypoints en kan niet de realiteit van interacties waarborgen die precies hand-object contact en passend contact met de vloer vereisen. Om deze problemen te overwinnen, introduceren we een object geometrie verlies als aanvullende supervisie om de afstemming tussen gegenereerde objectbewegingen en ingevoerde object waypoints te verbeteren. Daarnaast ontwerpen we begeleidingstermen om contactbeperkingen af te dwingen tijdens het bemonsteringsproces van het getrainde diffusiemodel.
3D-contentcreatie vanuit een enkele afbeelding is een lang bestaande maar zeer gewenste taak. Recente ontwikkelingen introduceren 2D-diffusiepriors, wat redelijke resultaten oplevert. Bestaande methoden zijn echter niet hyperrealistisch genoeg voor gebruik na generatie, omdat gebruikers de resulterende 3D-inhoud niet vanuit een volledig bereik kunnen bekijken, renderen en bewerken. Om deze uitdagingen aan te pakken, introduceren we HyperDreamer met verschillende sleutelontwerpen en aantrekkelijke eigenschappen: 1) Bekijkbaar: 360-graden meshmodellering met hoogresolutietexturen maakt het mogelijk visueel overtuigende 3D-modellen te creëren vanuit een volledig bereik van observatiepunten. 2) Renderbaar: Fijnmazige semantische segmentatie en data-gedreven priors worden geïntegreerd als begeleiding om redelijke albedo, ruwheid en speculaire eigenschappen van de materialen te leren, wat semantisch bewuste willekeurige materiaalschatting mogelijk maakt. 3) Bewerkbaar: Voor een gegenereerd model of hun eigen gegevens kunnen gebruikers interactief elke regio selecteren via een paar klikken en efficiënt de textuur bewerken met tekstgebaseerde begeleiding. Uitgebreide experimenten tonen de effectiviteit van HyperDreamer aan in het modelleren van regio-bewuste materialen met hoogresolutietexturen en het mogelijk maken van gebruiksvriendelijke bewerkingen. Wij geloven dat HyperDreamer veelbelovend is voor het bevorderen van 3D-contentcreatie en toepassingen in verschillende domeinen kan vinden.
Grootschalige tekst-naar-video (T2V) diffusiemodellen hebben de afgelopen jaren aanzienlijke vooruitgang geboekt op het gebied van visuele kwaliteit, beweging en temporele consistentie. Het generatieproces blijft echter een black box, waarbij alle attributen (bijv. uiterlijk, beweging) gezamenlijk worden geleerd en gegenereerd zonder precieze controle, afgezien van ruwe tekstbeschrijvingen. Geïnspireerd door beeldanimatie, waarbij video wordt ontkoppeld in een specifiek uiterlijk en de bijbehorende beweging, stellen we AnimateZero voor om het vooraf getrainde tekst-naar-video diffusiemodel, namelijk AnimateDiff, te onthullen en meer precieze controle over uiterlijk en beweging te bieden. Voor uiterlijkcontrole lenen we tussenliggende latente representaties en hun kenmerken uit de tekst-naar-beeld (T2I) generatie om ervoor te zorgen dat het gegenereerde eerste frame gelijk is aan het gegeven gegenereerde beeld. Voor temporele controle vervangen we de globale temporele aandacht van het originele T2V-model door onze voorgestelde positie-gecorrigeerde venster-aandacht om ervoor te zorgen dat andere frames goed aansluiten bij het eerste frame. Dankzij de voorgestelde methoden kan AnimateZero het generatieproces succesvol controleren zonder verdere training. Als een zero-shot beeldanimator voor gegeven beelden maakt AnimateZero ook meerdere nieuwe toepassingen mogelijk, waaronder interactieve videogeneratie en animatie van echte beelden. Gedetailleerde experimenten demonstreren de effectiviteit van de voorgestelde methode in zowel T2V als gerelateerde toepassingen.
Reinforcement Learning (RL) biedt een veelzijdig raamwerk voor het bereiken van langetermijndoelen. De algemeenheid ervan stelt ons in staat een breed scala aan problemen te formaliseren waarmee intelligente systemen in de echte wereld te maken krijgen, zoals het omgaan met uitgestelde beloningen, het hanteren van gedeeltelijke waarneembaarheid, het aanpakken van het exploratie- en exploitatie-dilemma, het benutten van offline data om online prestaties te verbeteren, en het waarborgen van veiligheidsbeperkingen. Ondanks de aanzienlijke vooruitgang die de RL-onderzoeksgemeenschap heeft geboekt bij het aanpakken van deze problemen, richten bestaande open-source RL-bibliotheken zich doorgaans op een smal deel van de RL-oplossingspijplijn, waardoor andere aspecten grotendeels onbeheerd blijven. Dit artikel introduceert Pearl, een productieklaar RL-agent softwarepakket dat expliciet is ontworpen om deze uitdagingen op een modulaire manier aan te gaan. Naast het presenteren van voorlopige benchmarkresultaten, benadrukt dit artikel de industriële adoptie van Pearl om de productiegereedheid ervan aan te tonen. Pearl is open source beschikbaar op Github via github.com/facebookresearch/pearl en de officiële website is te vinden op pearlagent.github.io.
Onlangs hebben diffusiemodellen opmerkelijke vooruitgang geboekt in tekst-naar-beeld (T2I) generatie, waarbij ze beelden synthetiseren met hoge kwaliteit en diverse inhoud. Ondanks deze vooruitgang blijft de gladheid van de latente ruimte binnen diffusiemodellen grotendeels onontgonnen. Gladde latente ruimtes zorgen ervoor dat een verstoring van een input latent overeenkomt met een geleidelijke verandering in het uitvoerbeeld. Deze eigenschap blijkt nuttig te zijn in downstream taken, waaronder beeldinterpolatie, inversie en bewerking. In dit werk leggen we de niet-gladheid van diffusie latente ruimtes bloot door opvallende visuele fluctuaties te observeren die het gevolg zijn van kleine latente variaties. Om dit probleem aan te pakken, stellen we Smooth Diffusion voor, een nieuwe categorie van diffusiemodellen die tegelijkertijd hoog presterend en glad kunnen zijn. Specifiek introduceren we Step-wise Variation Regularization om ervoor te zorgen dat de verhouding tussen de variaties van een willekeurige input latent en die van het uitvoerbeeld constant is bij elke diffusietrainingsstap. Daarnaast ontwikkelen we een interpolatie standaarddeviatie (ISTD) metriek om de gladheid van de latente ruimte van een diffusiemodel effectief te beoordelen. Uitgebreide kwantitatieve en kwalitatieve experimenten tonen aan dat Smooth Diffusion zich onderscheidt als een meer wenselijke oplossing, niet alleen in T2I generatie maar ook in verschillende downstream taken. Smooth Diffusion is geïmplementeerd als een plug-and-play Smooth-LoRA om te werken met verschillende community modellen. Code is beschikbaar op https://github.com/SHI-Labs/Smooth-Diffusion.
In deze studie onderzoeken we Transformer-gebaseerde diffusiemodellen voor beeld- en videogeneratie. Ondanks de dominantie van Transformer-architecturen in verschillende domeinen vanwege hun flexibiliteit en schaalbaarheid, maakt de visuele generatieve sector voornamelijk gebruik van CNN-gebaseerde U-Net-architecturen, met name in diffusiegebaseerde modellen. We introduceren GenTron, een familie van generatieve modellen die Transformer-gebaseerde diffusie toepassen, om deze kloof te overbruggen. Onze eerste stap was het aanpassen van Diffusion Transformers (DiTs) van klasseconditionering naar tekstconditionering, een proces dat een grondige empirische verkenning van het conditioneringsmechanisme omvatte. Vervolgens schalen we GenTron op van ongeveer 900M naar meer dan 3B parameters, waarbij we aanzienlijke verbeteringen in visuele kwaliteit waarnemen. Bovendien breiden we GenTron uit naar tekst-naar-videogeneratie, waarbij we nieuwe motion-free guidance introduceren om de videokwaliteit te verbeteren. In menselijke evaluaties tegen SDXL behaalt GenTron een winstpercentage van 51,1% in visuele kwaliteit (met een gelijkspelpercentage van 19,8%) en een winstpercentage van 42,3% in tekstafstemming (met een gelijkspelpercentage van 42,9%). GenTron presteert ook uitstekend in de T2I-CompBench, wat zijn sterke punten in compositionele generatie onderstreept. Wij geloven dat dit werk waardevolle inzichten zal bieden en als een nuttige referentie zal dienen voor toekomstig onderzoek.
We stellen NeRFiller voor, een aanpak die ontbrekende delen van een 3D-opname aanvult via generatieve 3D-inpainting met behulp van standaard 2D visuele generatieve modellen. Vaak ontbreken delen van een vastgelegde 3D-scène of object vanwege mesh-reconstructiefouten of een gebrek aan waarnemingen (bijvoorbeeld contactgebieden, zoals de onderkant van objecten, of moeilijk bereikbare gebieden). We benaderen dit uitdagende 3D-inpaintingprobleem door gebruik te maken van een 2D-inpainting diffusiemodel. We identificeren een verrassend gedrag van deze modellen, waarbij ze meer 3D-consistente inpaints genereren wanneer afbeeldingen een 2x2 raster vormen, en laten zien hoe dit gedrag kan worden gegeneraliseerd naar meer dan vier afbeeldingen. Vervolgens presenteren we een iteratief raamwerk om deze ingevulde regio's te destilleren tot een enkele consistente 3D-scène. In tegenstelling tot gerelateerde werken, richten we ons op het aanvullen van scènes in plaats van het verwijderen van voorgrondobjecten, en onze aanpak vereist geen nauwkeurige 2D-objectmaskers of tekst. We vergelijken onze aanpak met relevante baselines die zijn aangepast aan onze setting op een verscheidenheid aan scènes, waarbij NeRFiller de meest 3D-consistente en plausibele scèneaanvullingen creëert. Onze projectpagina is te vinden op https://ethanweber.me/nerfiller.
Gepersonaliseerde generatie met behulp van diffusiemodellen heeft indrukwekkende vooruitgang geboekt in beeldgeneratie, maar blijft onbevredigend in de uitdagende taak van videogeneratie, omdat het controle vereist over zowel onderwerpen als bewegingen. Daartoe presenteren we DreamVideo, een nieuwe aanpak voor het genereren van gepersonaliseerde video's vanuit een paar statische afbeeldingen van het gewenste onderwerp en een paar video's van de doelbeweging. DreamVideo ontkoppelt deze taak in twee fasen, onderwerpleer en bewegingleer, door gebruik te maken van een vooraf getraind videodiffusiemodel. Het onderwerpleer is gericht op het nauwkeurig vastleggen van het gedetailleerde uiterlijk van het onderwerp vanuit de verstrekte afbeeldingen, wat wordt bereikt door tekstuele inversie te combineren met het finetunen van onze zorgvuldig ontworpen identiteitsadapter. In bewegingleer ontwerpen we een bewegingadapter en finetunen deze op de gegeven video's om het doelbewegingspatroon effectief te modelleren. Door deze twee lichtgewicht en efficiënte adapters te combineren, is het mogelijk om flexibel elk onderwerp met elke beweging aan te passen. Uitgebreide experimentele resultaten tonen de superieure prestaties van onze DreamVideo aan in vergelijking met de state-of-the-art methoden voor gepersonaliseerde videogeneratie. Onze projectpagina is te vinden op https://dreamvideo-t2v.github.io.
Onlangs hebben diffusiemodellen verbetering laten zien in de kwaliteit van synthetische afbeeldingen, evenals betere controle in de generatie. Wij introduceren en presenteren Gen2Det, een eenvoudige modulaire pijplijn om gratis synthetische trainingsdata te creëren voor objectdetectie door gebruik te maken van state-of-the-art methoden voor gegronde beeldgeneratie. In tegenstelling tot bestaande werken die individuele objectinstanties genereren en vereisen dat eerst de voorgrond wordt geïdentificeerd om deze vervolgens op andere afbeeldingen te plakken, vereenvoudigen wij dit door direct scène-centrische afbeeldingen te genereren. Naast de synthetische data stelt Gen2Det ook een reeks technieken voor om de gegenereerde data optimaal te benutten, waaronder beeldniveau-filtering, instantieniveau-filtering en een beter trainingsrecept om rekening te houden met imperfecties in de generatie. Met Gen2Det laten we aanzienlijke verbeteringen zien in objectdetectie- en segmentatietaken onder verschillende instellingen, onafhankelijk van de detectiemethode. In de long-tailed detectie-instelling op LVIS verbetert Gen2Det de prestaties op zeldzame categorieën aanzienlijk, terwijl ook de prestaties op andere categorieën significant worden verbeterd, bijvoorbeeld zien we een verbetering van 2.13 Box AP en 1.84 Mask AP ten opzichte van alleen trainen op echte data op LVIS met Mask R-CNN. In de low-data regime-instelling op COCO verbetert Gen2Det consistent zowel Box als Mask AP met respectievelijk 2.27 en 1.85 punten. In de meest algemene detectie-instelling toont Gen2Det nog steeds robuuste prestatieverbeteringen, bijvoorbeeld het verbetert de Box en Mask AP op COCO met 0.45 en 0.32 punten.
Recente belangrijke vooruitgang in tekst-naar-beeldmodellen opent de mogelijkheid om visuele systemen te trainen met behulp van synthetische afbeeldingen, wat potentieel de moeilijkheid van het verzamelen van gecureerde data op grote schaal kan overwinnen. Het is echter onduidelijk hoe deze modellen zich op schaal gedragen naarmate er meer synthetische data aan de trainingsset wordt toegevoegd. In dit artikel bestuderen we de schaalwetten van synthetische afbeeldingen die gegenereerd zijn door state-of-the-art tekst-naar-beeldmodellen, voor het trainen van gesuperviseerde modellen: beeldclassificatoren met labelsupervisie, en CLIP met taalsupervisie. We identificeren verschillende factoren, waaronder tekstprompts, classifier-free guidance-schaal en soorten tekst-naar-beeldmodellen, die het schaalgedrag significant beïnvloeden. Na het afstemmen van deze factoren, observeren we dat synthetische afbeeldingen een schaaltrend vertonen die vergelijkbaar is met, maar iets minder effectief dan, echte afbeeldingen bij het trainen van CLIP, terwijl ze significant onderpresteren in schaal bij het trainen van gesuperviseerde beeldclassificatoren. Onze analyse geeft aan dat de belangrijkste reden voor deze onderprestatie het onvermogen is van standaard tekst-naar-beeldmodellen om bepaalde concepten te genereren, een beperking die het trainen van beeldclassificatoren significant belemmert. Onze bevindingen suggereren ook dat het schalen van synthetische data bijzonder effectief kan zijn in scenario's zoals: (1) wanneer er een beperkte voorraad echte afbeeldingen is voor een gesuperviseerd probleem (bijvoorbeeld minder dan 0,5 miljoen afbeeldingen in ImageNet), (2) wanneer de evaluatiedataset significant afwijkt van de trainingsdata, wat wijst op een out-of-distribution-scenario, of (3) wanneer synthetische data wordt gebruikt in combinatie met echte afbeeldingen, zoals aangetoond bij het trainen van CLIP-modellen.
Ondanks dat diffusiemodellen krachtige mogelijkheden hebben getoond om fotorealistische afbeeldingen te genereren, staat het genereren van realistische en diverse video's nog in de kinderschoenen. Een van de belangrijkste redenen is dat huidige methoden ruimtelijke inhoud en temporele dynamiek met elkaar verweven, wat leidt tot een aanzienlijk verhoogde complexiteit van tekst-naar-video-generatie (T2V). In dit werk stellen we HiGen voor, een op diffusiemodellen gebaseerde methode die de prestaties verbetert door de ruimtelijke en temporele factoren van video's vanuit twee perspectieven te ontkoppelen, namelijk op structuurniveau en op inhoudsniveau. Op structuurniveau splitsen we de T2V-taak op in twee stappen, waaronder ruimtelijke redenering en temporele redenering, met behulp van een uniforme denoiser. Specifiek genereren we ruimtelijk coherente priors met behulp van tekst tijdens de ruimtelijke redenering en genereren we vervolgens temporeel coherente bewegingen vanuit deze priors tijdens de temporele redenering. Op inhoudsniveau extraheren we twee subtiele aanwijzingen uit de inhoud van de invoervideo die respectievelijk beweging en uiterlijke veranderingen kunnen uitdrukken. Deze twee aanwijzingen begeleiden vervolgens de training van het model voor het genereren van video's, waardoor flexibele inhoudsvariaties mogelijk worden en de temporele stabiliteit wordt verbeterd. Door het ontkoppelde paradigma kan HiGen de complexiteit van deze taak effectief verminderen en realistische video's genereren met semantische nauwkeurigheid en bewegingsstabiliteit. Uitgebreide experimenten tonen de superieure prestaties van HiGen aan ten opzichte van de state-of-the-art T2V-methoden.