Dagelijks geselecteerde AI onderzoekspapers met vertalingen
In het tijdperk van geavanceerd multimodaal leren hebben multimodale grote taalmodellen (MLLMs) zoals GPT-4V opmerkelijke vooruitgang geboekt in het overbruggen van taal en visuele elementen. De gesloten aard van deze modellen en de aanzienlijke rekenkracht die ze vereisen, vormen echter aanzienlijke uitdagingen voor universeel gebruik en aanpassingen. Hier komen open-source MLLMs zoals LLaVA en MiniGPT-4 in beeld, die baanbrekende prestaties leveren op diverse taken. Ondanks deze prestaties blijft rekenkundige efficiëntie een onopgelost probleem, aangezien deze modellen, zoals LLaVA-v1.5-13B, aanzienlijke bronnen vereisen. Om deze problemen aan te pakken, introduceren we TinyGPT-V, een nieuw model dat indrukwekkende prestaties combineert met alledaagse rekenkracht. Het onderscheidt zich door slechts een 24G GPU te vereisen voor training en een 8G GPU of CPU voor inferentie. Gebaseerd op Phi-2, combineert TinyGPT-V een effectieve taalbackbone met vooraf getrainde visuele modules van BLIP-2 of CLIP. De 2,8B parameters van TinyGPT-V kunnen een uniek kwantiseringsproces ondergaan, geschikt voor lokale implementatie en inferentietaken op diverse apparaten met 8G. Ons werk bevordert verdere ontwikkelingen in het ontwerpen van kosteneffectieve, efficiënte en hoogpresterende MLLMs, waardoor hun toepasbaarheid in een breed scala aan real-world scenario's wordt uitgebreid. Bovendien stelt dit paper een nieuw paradigma voor van Multimodale Grote Taalmodellen via kleine backbones. Onze code en trainingsgewichten zijn beschikbaar op: https://github.com/DLYuanGod/TinyGPT-V en https://huggingface.co/Tyrannosaurus/TinyGPT-V respectievelijk.
We presenteren Unified-IO 2, het eerste autoregressieve multimodale model dat in staat is om afbeeldingen, tekst, audio en acties te begrijpen en te genereren. Om verschillende modaliteiten te verenigen, tokeniseren we invoer en uitvoer — afbeeldingen, tekst, audio, acties, begrenzingsvlakken, enz. — in een gedeelde semantische ruimte en verwerken ze vervolgens met een enkel encoder-decoder transformermodel. Omdat trainen met zulke diverse modaliteiten uitdagend is, stellen we diverse architectuurverbeteringen voor om de modeltraining te stabiliseren. We trainen ons model vanaf nul op een groot multimodaal voor-trainingscorpus uit diverse bronnen met een multimodaal mengsel van denoisers-doelstellingen. Om een uitgebreide set vaardigheden te leren, zoals het volgen van multimodale instructies, construeren en finetunen we op een ensemble van 120 datasets met prompts en augmentaties. Met een enkel verenigd model behaalt Unified-IO 2 state-of-the-art prestaties op de GRIT-benchmark en sterke resultaten in meer dan 35 benchmarks, waaronder afbeeldingsgeneratie en -begrip, natuurlijke taalbegrip, video- en audiobegrip, en robotmanipulatie. We stellen al onze modellen beschikbaar aan de onderzoeksgemeenschap.
Hoogwaardige, grootschalige corpora vormen de hoeksteen voor het bouwen van foundation-modellen. In dit werk introduceren we MathPile, een divers en hoogwaardig wiskundig corpus dat ongeveer 9,5 miljard tokens omvat. Gedurende het creatieproces hebben we vastgehouden aan het principe van "minder is meer", waarbij we sterk geloven in de superioriteit van data kwaliteit boven kwantiteit, zelfs in de pre-trainingsfase. Onze zorgvuldige inspanningen op het gebied van dataverzameling en -verwerking omvatten een complexe reeks van pre-processing, pre-filtering, taalidentificatie, opschoning, filtering en deduplicatie, waardoor de hoge kwaliteit van ons corpus gewaarborgd werd. Daarnaast hebben we datavervuilingsdetectie uitgevoerd op downstream benchmark test sets om duplicaten te elimineren. We hopen dat onze MathPile kan bijdragen aan het verbeteren van de wiskundige redeneervaardigheden van taalmodelen. We zijn van plan om verschillende versies van \mathpile open source te maken, samen met de scripts die gebruikt zijn voor de verwerking, om toekomstige ontwikkelingen op dit gebied te faciliteren.
We presenteren MobileVLM, een competent multimodaal visueel-taalmodel (MMVLM) dat is ontworpen om op mobiele apparaten te draaien. Het is een samenvoeging van een veelheid aan architectonische ontwerpen en technieken die gericht zijn op mobiel gebruik, waaronder een set taalmodel(len) met 1,4B en 2,7B parameters, van scratch getraind, een multimodaal visueel model dat is voorgetraind in de CLIP-stijl, en kruismodaliteitsinteractie via een efficiënte projector. We evalueren MobileVLM op verschillende typische VLM-benchmarks. Onze modellen demonstreren een vergelijkbare prestaties ten opzichte van enkele veel grotere modellen. Belangrijker nog, we meten de inferentiesnelheid op zowel een Qualcomm Snapdragon 888 CPU als een NVIDIA Jetson Orin GPU, en behalen state-of-the-art prestaties van respectievelijk 21,5 tokens en 65,3 tokens per seconde. Onze code zal beschikbaar worden gesteld op: https://github.com/Meituan-AutoML/MobileVLM.
Er zijn verschillende onbewaakte beeldsegmentatiebenaderingen voorgesteld die de noodzaak van dicht opeengepakte, handmatig geannoteerde segmentatiemaskers elimineren; huidige modellen behandelen afzonderlijk ofwel semantische segmentatie (bijv. STEGO) of klasse-agnostische instantiesegmentatie (bijv. CutLER), maar niet beide (d.w.z. panoptische segmentatie). Wij stellen een Onbewaakt Universeel Segmentatiemodel (U2Seg) voor dat in staat is verschillende beeldsegmentatietaken uit te voeren – instantie, semantisch en panoptisch – met behulp van een nieuw geïntegreerd raamwerk. U2Seg genereert pseudo-semantische labels voor deze segmentatietaken door gebruik te maken van zelfbewaakte modellen gevolgd door clustering; elke cluster vertegenwoordigt verschillende semantische en/of instantielidmaatschappen van pixels. Vervolgens trainen we het model zelf op deze pseudo-semantische labels, wat aanzienlijke prestatieverbeteringen oplevert ten opzichte van gespecialiseerde methoden die zijn afgestemd op elke taak: een +2.6 AP^{box} verbetering ten opzichte van CutLER in onbewaakte instantiesegmentatie op COCO en een +7.0 PixelAcc toename (ten opzichte van STEGO) in onbewaakte semantische segmentatie op COCOStuff. Bovendien stelt onze methode een nieuwe basislijn voor onbewaakte panoptische segmentatie, wat eerder niet is onderzocht. U2Seg is ook een sterk voorgetraind model voor few-shot segmentatie, dat CutLER met +5.0 AP^{mask} overtreft wanneer het wordt getraind in een laag-dataregime, bijvoorbeeld slechts 1% COCO-labels. Wij hopen dat onze eenvoudige maar effectieve methode meer onderzoek kan inspireren naar onbewaakte universele beeldsegmentatie.
Er is onlangs opmerkelijke vooruitgang geboekt in 4D-contentgeneratie. Bestaande methoden kampen echter met lange optimalisatietijden, een gebrek aan bewegingsbestuurbaarheid en een laag detailniveau. In dit artikel introduceren we DreamGaussian4D, een efficiënt 4D-generatieframework dat voortbouwt op de 4D Gaussian Splatting-representatie. Onze belangrijkste inzicht is dat de expliciete modellering van ruimtelijke transformaties in Gaussian Splatting het geschikter maakt voor de 4D-generatie-instelling in vergelijking met impliciete representaties. DreamGaussian4D reduceert de optimalisatietijd van enkele uren tot slechts een paar minuten, biedt flexibele controle over de gegenereerde 3D-beweging en produceert geanimeerde meshes die efficiënt kunnen worden gerenderd in 3D-engines.
We hebben aanzienlijke vooruitgang gezien in deep learning-gebaseerde 3D-visie, variërend van neurale stralingsveld (NeRF) gebaseerd 3D-representatie leren tot toepassingen in nieuwe weergave synthese (NVS). Bestaande scene-level datasets voor deep learning-gebaseerde 3D-visie, beperkt tot ofwel synthetische omgevingen of een beperkte selectie van real-world scenes, zijn echter ontoereikend. Deze ontoereikendheid belemmert niet alleen een uitgebreide benchmark van bestaande methoden, maar beperkt ook wat er kan worden onderzocht in deep learning-gebaseerde 3D-analyse. Om dit kritieke gat te dichten, presenteren we DL3DV-10K, een grootschalige scene dataset, met 51,2 miljoen frames uit 10.510 video's vastgelegd op 65 soorten punten van belang (POI) locaties, die zowel begrensde als onbegrensde scenes omvatten, met verschillende niveaus van reflectie, transparantie en belichting. We hebben een uitgebreide benchmark uitgevoerd van recente NVS-methoden op DL3DV-10K, wat waardevolle inzichten heeft opgeleverd voor toekomstig onderzoek in NVS. Daarnaast hebben we bemoedigende resultaten behaald in een pilotstudie om generaliseerbare NeRF te leren van DL3DV-10K, wat de noodzaak aantoont van een grootschalige scene-level dataset om een pad te banen naar een foundation model voor het leren van 3D-representatie. Onze DL3DV-10K dataset, benchmarkresultaten en modellen zullen publiek toegankelijk zijn op https://dl3dv-10k.github.io/DL3DV-10K/.
NeRF heeft de 3D-scène-reconstructie aanzienlijk vooruitgebracht, waarbij ingewikkelde details in diverse omgevingen worden vastgelegd. Bestaande methoden hebben met succes gebruik gemaakt van radiance field baking om real-time rendering van kleine scènes mogelijk te maken. Wanneer deze technieken echter worden toegepast op grootschalige scènes, ontstaan er aanzienlijke uitdagingen, waarbij ze moeite hebben om een naadloze real-time ervaring te bieden vanwege beperkte middelen in rekenkracht, geheugen en bandbreedte. In dit artikel stellen we City-on-Web voor, waarbij de hele scène wordt weergegeven door deze op te delen in beheersbare blokken, elk met een eigen Level-of-Detail, wat zorgt voor hoge kwaliteit, efficiënt geheugenbeheer en snelle rendering. Tegelijkertijd hebben we het trainings- en inferentieproces zorgvuldig ontworpen, zodat het uiteindelijke renderresultaat op het web consistent is met de training. Dankzij onze nieuwe representatie en het zorgvuldig ontworpen trainings-/inferentieproces zijn wij de eersten die real-time rendering van grootschalige scènes in omgevingen met beperkte middelen hebben gerealiseerd. Uitgebreide experimentele resultaten tonen aan dat onze methode real-time rendering van grootschalige scènes op een webplatform mogelijk maakt, met een snelheid van 32 FPS bij 1080P-resolutie op een RTX 3060 GPU, terwijl tegelijkertijd een kwaliteit wordt bereikt die dicht in de buurt komt van state-of-the-art methoden. Projectpagina: https://ustc3dv.github.io/City-on-Web/
In het snel evoluerende domein van digitale contentgeneratie is de aandacht verschoven van tekst-naar-beeld (T2I) modellen naar meer geavanceerde videodiffusiemodellen, met name tekst-naar-video (T2V) en beeld-naar-video (I2V). Dit artikel behandelt de complexe uitdaging die I2V met zich meebrengt: het omzetten van statische afbeeldingen in dynamische, levensechte videosequenties terwijl de oorspronkelijke beeldkwaliteit behouden blijft. Traditionele methoden betreffen doorgaans het integreren van volledige afbeeldingen in diffusieprocessen of het gebruik van vooraf getrainde encoders voor kruisattentie. Deze benaderingen vereisen echter vaak aanpassingen aan de fundamentele gewichten van T2I-modellen, wat hun herbruikbaarheid beperkt. Wij introduceren een nieuwe oplossing, genaamd I2V-Adapter, die ontworpen is om dergelijke beperkingen te overwinnen. Onze aanpak behoudt de structurele integriteit van T2I-modellen en hun inherente bewegingsmodules. De I2V-Adapter werkt door geruisde videoframes parallel te verwerken met de invoerafbeelding, waarbij gebruik wordt gemaakt van een lichtgewicht adaptermodule. Deze module fungeert als een brug, die de invoer efficiënt verbindt met het zelfattentiemechanisme van het model, waardoor ruimtelijke details behouden blijven zonder structurele wijzigingen aan het T2I-model te vereisen. Bovendien vereist I2V-Adapter slechts een fractie van de parameters van conventionele modellen en zorgt het voor compatibiliteit met bestaande, door de gemeenschap ontwikkelde T2I-modellen en controle-instrumenten. Onze experimentele resultaten tonen aan dat I2V-Adapter in staat is hoogwaardige video-uitvoer te produceren. Deze prestaties, gecombineerd met de veelzijdigheid en de verminderde behoefte aan trainbare parameters, vertegenwoordigen een aanzienlijke vooruitgang op het gebied van AI-gestuurde videogeneratie, met name voor creatieve toepassingen.
Het synthetiseren van nieuwe aanzichten van dynamische scènes is een intrigerend maar uitdagend probleem gebleven. Ondanks recente vooruitgang blijft het gelijktijdig bereiken van hoogwaardige fotorealistische resultaten, real-time rendering en compacte opslag een formidabele taak. Om deze uitdagingen aan te pakken, stellen we Spacetime Gaussian Feature Splatting voor als een nieuwe representatie van dynamische scènes, bestaande uit drie cruciale componenten. Ten eerste formuleren we expressieve Spacetime Gaussians door 3D Gaussians te verrijken met tijdelijke dekking en parametrische beweging/rotatie. Hierdoor kunnen Spacetime Gaussians statische, dynamische en tijdelijke inhoud binnen een scène vastleggen. Ten tweede introduceren we splatted feature rendering, waarbij sferische harmonischen worden vervangen door neurale features. Deze features vergemakkelijken het modelleren van aanzicht- en tijdafhankelijk uiterlijk, terwijl ze klein van formaat blijven. Ten derde maken we gebruik van de begeleiding van trainingsfouten en grove diepte om nieuwe Gaussians te bemonsteren in gebieden die moeilijk te convergeren zijn met bestaande pipelines. Experimenten op verschillende gevestigde real-world datasets tonen aan dat onze methode state-of-the-art renderingkwaliteit en snelheid bereikt, terwijl compacte opslag behouden blijft. Bij een resolutie van 8K kan ons lite-versie model renderen met 60 FPS op een Nvidia RTX 4090 GPU.
Het genereren van animaties van fysica-gebaseerde karakters met intuïtieve controle is al lang een gewenste taak met talrijke toepassingen. Het genereren van fysiek gesimuleerde animaties die hoogwaardige menselijke instructies weerspiegelen, blijft echter een moeilijk probleem vanwege de complexiteit van fysieke omgevingen en de rijkdom van menselijke taal. In dit artikel presenteren we InsActor, een principieel generatief raamwerk dat gebruikmaakt van recente vooruitgang in diffusie-gebaseerde menselijke bewegingsmodellen om instructie-gestuurde animaties van fysica-gebaseerde karakters te produceren. Ons raamwerk stelt InsActor in staat om complexe relaties tussen hoogwaardige menselijke instructies en karakterbewegingen vast te leggen door diffusiebeleid te gebruiken voor flexibel geconditioneerde bewegingsplanning. Om ongeldige toestanden en onuitvoerbare toestandsovergangen in geplande bewegingen te overwinnen, ontdekt InsActor laagniveau vaardigheden en mapt het plannen naar latente vaardigheidssequenties in een compacte latente ruimte. Uitgebreide experimenten tonen aan dat InsActor state-of-the-art resultaten behaalt op verschillende taken, waaronder instructie-gestuurde bewegingsgeneratie en instructie-gestuurde waypoint-navigatie. Met name het vermogen van InsActor om fysiek gesimuleerde animaties te genereren met behulp van hoogwaardige menselijke instructies maakt het een waardevol hulpmiddel, vooral bij het uitvoeren van langetermijntaken met een rijke set aan instructies.
State-of-the-art taalmodelen worden steeds groter in een poging om de hoogste prestaties te behalen op grote corpora van beschikbare tekstuele data. De omvang van Transformer-architecturen maakt het echter moeilijk om modellen te implementeren binnen computationele, milieu- of apparaatspecifieke beperkingen. Wij onderzoeken data-gedreven compressie van bestaande vooraf getrainde modellen als alternatief voor het trainen van kleinere modellen vanaf nul. Hiervoor schalen we Kronecker-gefactoriseerde krommingsbenaderingen van het doelverlieslandschap toe op grote taalmodelen. Hierdoor kunnen we zowel de dynamische toewijzing van structuren die kunnen worden verwijderd berekenen, als updates van overgebleven gewichten die rekening houden met de verwijdering. Wij bieden een algemeen raamwerk voor ongestructureerde, semi-gestructureerde en gestructureerde pruning en verbeteren gewichtsupdates om meer correlaties tussen gewichten vast te leggen, terwijl we computationeel efficiënt blijven. Experimenteel kan onze methode rijen en kolommen van een reeks OPT-modellen en Llamav2-7B met 20%-30% verminderen, met een verwaarloosbaar prestatieverlies, en behalen we state-of-the-art resultaten in ongestructureerde en semi-gestructureerde pruning van grote taalmodelen.
Neurale grafische primitieven zijn sneller en bereiken een hogere kwaliteit wanneer hun neurale netwerken worden versterkt door ruimtelijke datastructuren die trainbare kenmerken bevatten die in een raster zijn gerangschikt. Bestaande kenmerkraster hebben echter ofwel een groot geheugenverbruik (dichte of gefactoriseerde rasters, bomen en hashtabellen) of trage prestaties (indexleren en vectorquantisatie). In dit artikel laten we zien dat een hashtabel met geleerde probes geen van deze nadelen heeft, wat resulteert in een gunstige combinatie van grootte en snelheid. Inferentie is sneller dan hashtabellen zonder probes bij gelijke kwaliteit, terwijl de training slechts 1,2-2,6x langzamer is, wat aanzienlijk beter presteert dan eerdere benaderingen voor indexleren. We komen tot deze formulering door alle kenmerkraster in een gemeenschappelijk kader te plaatsen: ze komen elk overeen met een opzoekfunctie die indexeert in een tabel van kenmerkvectoren. In dit kader kunnen de opzoekfuncties van bestaande datastructuren worden gecombineerd door eenvoudige rekenkundige combinaties van hun indices, wat resulteert in Pareto-optimale compressie en snelheid.
Het oplossen van beeld-naar-3D vanuit een enkel beeld is een slecht gesteld probleem, en huidige neurale reconstructiemethoden die dit aanpakken via diffusiemodellen blijven afhankelijk van scènespecifieke optimalisatie, wat hun generalisatievermogen beperkt. Om de beperkingen van bestaande benaderingen op het gebied van generalisatie en consistentie te overwinnen, introduceren we een nieuwe neurale renderingtechniek. Onze aanpak maakt gebruik van de signed distance function als oppervlakteweergave en integreert generaliseerbare priors via geometrie-coderende volumes en HyperNetworks. Specifiek bouwt onze methode neurale coderingsvolumes op vanuit gegenereerde invoer met meerdere gezichtspunten. We passen de gewichten van het SDF-netwerk aan, geconditioneerd op een invoerbeeld tijdens testtijd, om modelaanpassing aan nieuwe scènes mogelijk te maken in een feed-forward manier via HyperNetworks. Om artefacten afkomstig van de gesynthetiseerde gezichtspunten te verminderen, stellen we het gebruik van een volumetransformermodule voor om de aggregatie van beeldkenmerken te verbeteren in plaats van elk gezichtspunt afzonderlijk te verwerken. Met onze voorgestelde methode, genaamd Hyper-VolTran, vermijden we het knelpunt van scènespecifieke optimalisatie en behouden we consistentie tussen de beelden gegenereerd vanuit meerdere gezichtspunten. Onze experimenten tonen de voordelen van onze voorgestelde aanpak met consistente resultaten en snelle generatie.
Huidige grootschalige diffusiemodellen vertegenwoordigen een enorme sprong voorwaarts in conditionele beeldgeneratie, waarbij ze in staat zijn om diverse signalen zoals tekst, menselijke poses en randen te interpreteren. Hun afhankelijkheid van aanzienlijke rekenkracht en uitgebreide dataverzameling blijft echter een knelpunt. Aan de andere kant vormt de integratie van bestaande diffusiemodellen, die elk gespecialiseerd zijn voor verschillende controles en werken in unieke latente ruimtes, een uitdaging vanwege incompatibele beeldresoluties en latente ruimte-embeddingstructuren, wat hun gezamenlijk gebruik belemmert. Om deze beperkingen aan te pakken, presenteren we "PanGu-Draw", een nieuw latent diffusiemodel ontworpen voor resource-efficiënte tekst-naar-beeld synthese dat meerdere controlesignalen naadloos ondersteunt. We introduceren eerst een resource-efficiënte Time-Decoupling Trainingsstrategie, die het monolitische tekst-naar-beeld model opsplitst in structuur- en textuurgeneratoren. Elke generator wordt getraind met een regime dat data-gebruik en rekenkracht maximaliseert, waardoor de data voorbereiding met 48% wordt verminderd en de trainingsresources met 51% worden gereduceerd. Ten tweede introduceren we "Coop-Diffusion", een algoritme dat het samenwerkend gebruik van verschillende vooraf getrainde diffusiemodellen met verschillende latente ruimtes en vooraf gedefinieerde resoluties mogelijk maakt binnen een uniform denoisingsproces. Dit maakt multi-controle beeldgeneratie bij willekeurige resoluties mogelijk zonder de noodzaak van extra data of hertraining. Empirische validaties van PanGu-Draw tonen zijn uitzonderlijke vaardigheden in tekst-naar-beeld en multi-controle beeldgeneratie, wat een veelbelovende richting suggereert voor toekomstige modeltrainings efficiëntie en generatie veelzijdigheid. Het grootste 5B T2I PanGu-Draw model is vrijgegeven op het Ascend platform. Projectpagina: https://pangu-draw.github.io
Recente vooruitgang in onderwerpgestuurde beeldgeneratie heeft geleid tot zero-shot generatie, maar het nauwkeurig selecteren en focussen op cruciale onderweepsrepresentaties blijft een uitdaging. Om dit aan te pakken, introduceren we de SSR-Encoder, een nieuwe architectuur die is ontworpen om selectief elk onderwerp vast te leggen vanuit één of meerdere referentiebeelden. Het reageert op verschillende querymodaliteiten, waaronder tekst en maskers, zonder dat fine-tuning tijdens de testfase nodig is. De SSR-Encoder combineert een Token-to-Patch Aligner die query-invoer uitlijnt met beeldpatches en een Detail-Preserving Subject Encoder voor het extraheren en behouden van fijne kenmerken van de onderwerpen, waardoor onderweepsembeddings worden gegenereerd. Deze embeddings, gebruikt in combinatie met originele tekstembeddings, sturen het generatieproces aan. Gekenmerkt door zijn modelgeneraliseerbaarheid en efficiëntie, past de SSR-Encoder zich aan aan een reeks aangepaste modellen en controlemodules. Versterkt door de Embedding Consistency Regularization Loss voor verbeterde training, tonen onze uitgebreide experimenten de effectiviteit ervan aan in veelzijdige en hoogwaardige beeldgeneratie, wat wijst op de brede toepasbaarheid ervan. Projectpagina: https://ssr-encoder.github.io
Tekstgeleide domeinaanpassing en generatie van 3D-aware portretten vinden veel toepassingen in verschillende vakgebieden. Vanwege het gebrek aan trainingsdata en de uitdagingen bij het omgaan met de grote verscheidenheid aan geometrie en uiterlijk, kampen bestaande methoden voor deze taken echter met problemen zoals inflexibiliteit, instabiliteit en lage kwaliteit. In dit artikel stellen we een nieuw framework voor, DiffusionGAN3D, dat tekstgeleide 3D-domeinaanpassing en generatie verbetert door 3D GAN's en diffusiepriors te combineren. Specifiek integreren we vooraf getrainde 3D-generatieve modellen (bijv. EG3D) en tekst-naar-beeld diffusiemodellen. Het eerste biedt een sterke basis voor stabiele en hoogwaardige avatar-generatie vanuit tekst. De diffusiemodellen bieden op hun beurt krachtige priors en begeleiden de 3D-generator bij het finetunen met informatieve richting om flexibele en efficiënte tekstgeleide domeinaanpassing te bereiken. Om de diversiteit in domeinaanpassing en de generatiecapaciteit in tekst-naar-avatar te verbeteren, introduceren we respectievelijk het relatieve afstandsverlies en een casespecifiek leerbaar triplane. Daarnaast ontwerpen we een progressieve textuurverfijningsmodule om de textuurkwaliteit voor beide bovengenoemde taken te verbeteren. Uitgebreide experimenten tonen aan dat het voorgestelde framework uitstekende resultaten behaalt in zowel domeinaanpassing als tekst-naar-avatar taken, en bestaande methoden overtreft wat betreft generatiekwaliteit en efficiëntie. De projecthomepage is te vinden op https://younglbw.github.io/DiffusionGAN3D-homepage/.
Text-to-image-generatiemodellen zijn krachtig maar moeilijk te gebruiken. Gebruikers maken specifieke prompts om betere afbeeldingen te krijgen, hoewel de afbeeldingen repetitief kunnen zijn. Dit artikel stelt een Prompt Expansion-framework voor dat gebruikers helpt om met minder inspanning hoogwaardige, diverse afbeeldingen te genereren. Het Prompt Expansion-model neemt een tekstquery als invoer en produceert een set uitgebreide tekstprompts die zo zijn geoptimaliseerd dat ze, wanneer ze aan een text-to-image-model worden doorgegeven, een breder scala aan aantrekkelijke afbeeldingen genereren. We voeren een gebruikersevaluatiestudie uit die aantoont dat afbeeldingen gegenereerd via Prompt Expansion esthetisch aantrekkelijker en diverser zijn dan die gegenereerd door baseline-methoden. Over het geheel genomen presenteert dit artikel een nieuwe en effectieve aanpak om de text-to-image-generatie-ervaring te verbeteren.
De inherente generatieve kracht van denoising-diffusiemodellen maakt ze bijzonder geschikt voor beeldrestauratietaken, waarbij het doel is om het optimale hoogwaardige beeld binnen de generatieve ruimte te vinden dat sterk lijkt op het invoerbeeld. Wij stellen een methode voor om een vooraf getraind diffusiemodel aan te passen voor beeldrestauratie door simpelweg ruis toe te voegen aan het invoerbeeld dat moet worden hersteld en vervolgens te denoisen. Onze methode is gebaseerd op de observatie dat de ruimte van een generatief model beperkt moet worden. We leggen deze beperking op door het generatieve model te finetunen met een set ankerbeelden die de kenmerken van het invoerbeeld vastleggen. Met de beperkte ruimte kunnen we vervolgens de samplingstrategie die wordt gebruikt voor generatie inzetten om beeldrestauratie uit te voeren. We evalueren onze methode tegenover eerdere methoden en tonen superieure prestaties op meerdere real-world restauratiedatasets in het behoud van identiteit en beeldkwaliteit. We demonstreren ook een belangrijke en praktische toepassing op gepersonaliseerde restauratie, waarbij we een persoonlijk album gebruiken als de ankerbeelden om de generatieve ruimte te beperken. Deze aanpak stelt ons in staat om resultaten te produceren die hoogfrequente details nauwkeurig behouden, wat eerdere werken niet kunnen. Projectwebpagina: https://gen2res.github.io.