Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Dit rapport introduceert een nieuwe familie van multimodale modellen, Gemini, die opmerkelijke capaciteiten vertonen op het gebied van beeld-, audio-, video- en tekstbegrip. De Gemini-familie bestaat uit de formaten Ultra, Pro en Nano, geschikt voor toepassingen variërend van complexe redeneertaken tot gebruiksscenario's met beperkt geheugen op apparaten. Evaluatie op een breed scala aan benchmarks toont aan dat ons meest capabele Gemini Ultra-model de stand van de techniek verbetert in 30 van de 32 benchmarks – waarbij het opvallend genoeg het eerste model is dat prestaties op menselijk expertniveau bereikt op de goed bestudeerde exambenchmark MMLU, en de stand van de techniek verbetert in elk van de 20 multimodale benchmarks die we hebben onderzocht. Wij geloven dat de nieuwe mogelijkheden van Gemini-modellen op het gebied van cross-modale redenering en taalbegrip een breed scala aan gebruiksscenario's mogelijk zullen maken, en we bespreken onze aanpak om deze op een verantwoorde manier aan gebruikers te implementeren.
We presenteren VecFusion, een nieuwe neurale architectuur die vectorfonts kan genereren met variërende topologische structuren en nauwkeurige positiebepaling van controlepunten. Onze aanpak is een gecascadeerd diffusiemodel dat bestaat uit een rasterdiffusiemodel gevolgd door een vectordiffusiemodel. Het rastermodel genereert laagresolutie, gerasterde fonts met aanvullende informatie over controlepunten, waarbij de globale stijl en vorm van het font worden vastgelegd, terwijl het vectormodel vectorfonts synthetiseert die zijn gebaseerd op de laagresolutie rasterfonts uit de eerste fase. Om lange en complexe curves te synthetiseren, gebruikt ons vectordiffusiemodel een transformer-architectuur en een nieuwe vectorrepresentatie die het mogelijk maakt om diverse vectorgeometrie te modelleren en controlepunten precies te voorspellen. Onze experimenten tonen aan dat, in tegenstelling tot eerdere generatieve modellen voor vectorgraphics, ons nieuwe gecascadeerde vectordiffusiemodel vectorfonts van hogere kwaliteit genereert, met complexe structuren en diverse stijlen.
Grote taalmodellen (LLMs) hebben opmerkelijke vaardigheden getoond in menselijk redeneren en generatie, wat uitgebreid onderzoek naar hun toepassing in wiskundig probleemoplossen stimuleert. Het huidige werk is echter grotendeels gericht op tekstgebaseerde wiskundige problemen, met beperkt onderzoek naar problemen die geometrische informatie bevatten. Om deze kloof te overbruggen, streven we ernaar om LLMs in staat te stellen geometrische problemen op te lossen door beeldinvoer te begrijpen. We analyseren eerst de beperkingen van huidige Multimodale Grote Taalmodellen (MLLMs) op dit gebied: ze hebben moeite met het nauwkeurig begrijpen van basale geometrische elementen en hun onderlinge relaties. Om deze uitdagingen te overwinnen, maken we gebruik van de unieke kenmerken van geometrische problemen (zoals de unieke geometrische logische vorm en geometrische schaalbaarheid) en de capaciteit van tekstuele LLMs om een verrijkt multimodaal geometrie-dataset te bouwen op basis van bestaande data. De uitgebreide dataset, Geo170K, bevat meer dan 170K geometrische afbeelding-bijschrift en vraag-antwoord paren. Met behulp van onze geconstrueerde Geo170K-dataset ontwikkelen we G-LLaVA, dat uitstekende prestaties laat zien in het oplossen van geometrische problemen en GPT-4-V aanzienlijk overtreft op de MathVista-benchmark met slechts 7B parameters.
Beelddiffusiemodellen zijn ingezet bij diverse taken, zoals tekst-naar-beeldgeneratie en controleerbare beeld synthese. Recent onderzoek heeft afstemmethoden geïntroduceerd die subtiele aanpassingen maken aan de originele modellen, wat veelbelovende resultaten oplevert bij specifieke aanpassingen van fundamentele generatieve diffusiemodellen. In plaats van de hoofdstructuur van het diffusiemodel te wijzigen, verdiepen we ons in de rol van de skip-verbinding in U-Net en onthullen we dat hiërarchische kenmerken die informatie over lange afstand aggregeren tussen de encoder en decoder een aanzienlijke impact hebben op de inhoud en kwaliteit van beeldgeneratie. Op basis van deze observatie stellen we een efficiënt generatief afstemkader voor, genaamd SCEdit, dat skip-verbindingen integreert en bewerkt met behulp van een lichtgewicht afstemmodule genaamd SC-Tuner. Bovendien maakt het voorgestelde kader een eenvoudige uitbreiding naar controleerbare beeld synthese mogelijk door verschillende condities in te voeren met de Controleerbare SC-Tuner, wat het netwerkontwerp voor multi-conditie-ingangen vereenvoudigt en verenigt. Onze SCEdit vermindert aanzienlijk het aantal trainingsparameters, het geheugengebruik en de rekenkosten dankzij de lichtgewicht tuners, waarbij de achterwaartse propagatie alleen naar de decoderblokken wordt doorgegeven. Uitgebreide experimenten uitgevoerd op tekst-naar-beeldgeneratie en controleerbare beeld synthese taken demonstreren de superioriteit van onze methode in termen van efficiëntie en prestaties. Projectpagina: https://scedit.github.io/
Recente tekst-naar-beeld (T2I) generatiemodellen zoals Stable Diffusion en Imagen hebben aanzienlijke vooruitgang geboekt in het genereren van hoogwaardige afbeeldingen op basis van tekstbeschrijvingen. Veel gegenereerde afbeeldingen lijden echter nog steeds aan problemen zoals artefacten/onwaarschijnlijkheid, verkeerde uitlijning met tekstbeschrijvingen en lage esthetische kwaliteit. Geïnspireerd door het succes van Reinforcement Learning met menselijke feedback (RLHF) voor grote taalmodellen, hebben eerdere werken door mensen verstrekte scores verzameld als feedback op gegenereerde afbeeldingen en een beloningsmodel getraind om de T2I-generatie te verbeteren. In dit artikel verrijken we het feedbacksignaal door (i) afbeeldingsregio's te markeren die onwaarschijnlijk zijn of niet overeenkomen met de tekst, en (ii) te annoteren welke woorden in de tekstprompt verkeerd worden weergegeven of ontbreken in de afbeelding. We verzamelen dergelijke uitgebreide menselijke feedback op 18K gegenereerde afbeeldingen en trainen een multimodale transformer om de uitgebreide feedback automatisch te voorspellen. We laten zien dat de voorspelde uitgebreide menselijke feedback kan worden benut om de beeldgeneratie te verbeteren, bijvoorbeeld door hoogwaardige trainingsgegevens te selecteren om de generatieve modellen te finetunen en te verbeteren, of door maskers te creëren met voorspelde heatmaps om de problematische regio's in te vullen. Opmerkelijk is dat de verbeteringen generaliseren naar modellen (Muse) die verder gaan dan die welke zijn gebruikt om de afbeeldingen te genereren waarop de menselijke feedbackgegevens zijn verzameld (Stable Diffusion-varianten).
Gaussiaans splatten is naar voren gekomen als een krachtige 3D-representatie die de voordelen van zowel expliciete (mesh) als impliciete (NeRF) 3D-representaties benut. In dit artikel streven we ernaar om Gaussiaans splatten te gebruiken om realistische animeerbare avatars te genereren op basis van tekstuele beschrijvingen, waarbij we de beperkingen (bijv. flexibiliteit en efficiëntie) van mesh- of NeRF-gebaseerde representaties aanpakken. Een naïeve toepassing van Gaussiaans splatten kan echter geen hoogwaardige animeerbare avatars genereren en lijdt onder leerinstabiliteit; het kan ook fijne avatar-geometrieën niet vastleggen en leidt vaak tot gedegenereerde lichaamsdelen. Om deze problemen aan te pakken, stellen we eerst een primitief-gebaseerde 3D Gaussiaanse representatie voor waarin Gaussiaanse functies binnen pose-gestuurde primitieven worden gedefinieerd om animatie te vergemakkelijken. Ten tweede, om het leren van miljoenen Gaussiaanse functies te stabiliseren en te amortiseren, stellen we voor om neurale impliciete velden te gebruiken om de Gaussiaanse attributen (bijv. kleuren) te voorspellen. Tot slot, om fijne avatar-geometrieën vast te leggen en gedetailleerde meshes te extraheren, introduceren we een nieuwe SDF-gebaseerde impliciete mesh-leerbenadering voor 3D Gaussiaanse functies die de onderliggende geometrieën regulariseert en zeer gedetailleerde getextureerde meshes extraheert. Onze voorgestelde methode, GAvatar, maakt het mogelijk om op grote schaal diverse animeerbare avatars te genereren met alleen tekstprompts. GAvatar overtreft bestaande methoden aanzienlijk wat betreft zowel uiterlijk als geometriekwaliteit, en bereikt extreem snelle rendering (100 fps) bij een resolutie van 1K.
Onlangs is 3D-begrip populair geworden om autonome agents te faciliteren bij het nemen van verdere beslissingen. Bestaande 3D-datasets en -methoden zijn echter vaak beperkt tot specifieke taken. Aan de andere kant hebben recente vooruitgang in Large Language Models (LLMs) en Multimodal Language Models (MLMs) uitzonderlijke prestaties getoond op het gebied van algemene taal- en beeldtaken. Daarom is het interessant om het potentieel van MLMs te ontsluiten om als 3D-generalist te fungeren voor een breder scala aan taken. Het huidige onderzoek naar MLMs is echter minder gericht op 3D-taken vanwege een gebrek aan grootschalige 3D-instructievolgende datasets. In dit werk introduceren we een uitgebreide 3D-instructievolgende dataset genaamd M3DBench, die de volgende kenmerken heeft: 1) Het ondersteunt algemene multimodale instructies die afgewisseld worden met tekst, afbeeldingen, 3D-objecten en andere visuele prompts. 2) Het verenigt diverse 3D-taken op zowel regionaal als sceneniveau, waarbij een verscheidenheid aan fundamentele vaardigheden in realistische 3D-omgevingen wordt behandeld. 3) Het is een grootschalige 3D-instructievolgende dataset met meer dan 320k instructie-responsparen. Bovendien stellen we een nieuwe benchmark op om de prestaties van grote modellen te beoordelen bij het begrijpen van multimodale 3D-prompts. Uitgebreide experimenten tonen de effectiviteit van onze dataset en baseline aan, die algemene 3D-gerichte taken ondersteunen, wat toekomstig onderzoek kan inspireren.
Visueel verhalen vertellen maakt vaak gebruik van afbeeldingen met ongebruikelijke beeldverhoudingen, zoals rolschilderingen, stripverhalen en panorama's, om een expressief en boeiend narratief te creëren. Hoewel generatieve AI grote successen heeft behaald en het potentieel heeft getoond om de creatieve industrie te hervormen, blijft het een uitdaging om samenhangende en aansprekende inhoud te genereren met een willekeurige grootte en controleerbare stijl, concept en lay-out, die allemaal essentieel zijn voor visueel verhalen vertellen. Om de tekortkomingen van eerdere methoden, waaronder repetitieve inhoud, stijlinconsistentie en een gebrek aan controleerbaarheid, te overwinnen, stellen we MagicScroll voor, een meerlagig, progressief op diffusie gebaseerd framework voor beeldgeneratie met een nieuw semantisch bewust denoiseringsproces. Het model maakt fijnmazige controle mogelijk over het gegenereerde beeld op object-, scène- en achtergrondniveau met tekst-, beeld- en lay-outcondities. We stellen ook de eerste benchmark op voor het genereren van afbeeldingen met ongebruikelijke beeldverhoudingen voor visueel verhalen vertellen, inclusief media zoals schilderijen, strips en cinematische panorama's, met aangepaste metrieken voor systematische evaluatie. Door vergelijkende en ablatiestudies toont MagicScroll veelbelovende resultaten in het afstemmen op de narratieve tekst, het verbeteren van visuele samenhang en het betrekken van het publiek. We zijn van plan de code en benchmark vrij te geven in de hoop op een betere samenwerking tussen AI-onderzoekers en creatieve professionals op het gebied van visueel verhalen vertellen.
De groeiende interesse in Multi-modale Grote Taalmodellen (MLLMs), zoals GPT-4V(ision) van OpenAI, heeft een belangrijke trend gemarkeerd in zowel de academische wereld als de industrie. Deze modellen voorzien Grote Taalmodellen (LLMs) van krachtige mogelijkheden in visueel begrip, waardoor ze diverse multi-modale taken kunnen aanpakken. Onlangs heeft Google Gemini uitgebracht, zijn nieuwste en meest capabele MLLM, dat vanaf de grond is opgebouwd voor multi-modaliteit. Gezien de superieure redeneercapaciteiten, kan Gemini GPT-4V's leidende positie in multi-modale learning uitdagen? In dit artikel presenteren we een eerste verkenning van Gemini Pro's vaardigheid in visueel begrip, dat vier domeinen omvat: fundamentele perceptie, geavanceerde cognitie, uitdagende visietaken en diverse expertcapaciteiten. We vergelijken Gemini Pro met de state-of-the-art GPT-4V om de bovengrenzen ervan te evalueren, samen met het nieuwste open-source MLLM, Sphinx, dat de kloof tussen handmatige inspanningen en black-box systemen onthult. De kwalitatieve voorbeelden geven aan dat, hoewel GPT-4V en Gemini verschillende antwoordstijlen en voorkeuren vertonen, ze vergelijkbare visuele redeneercapaciteiten kunnen tonen, en Sphinx nog steeds achterblijft wat betreft domeingeneraliseerbaarheid. Specifiek heeft GPT-4V de neiging om gedetailleerde uitleg en tussenstappen te geven, terwijl Gemini de voorkeur geeft aan een direct en beknopt antwoord. De kwantitatieve evaluatie op de populaire MME-benchmark toont ook het potentieel van Gemini aan als een sterke uitdager van GPT-4V. Ons vroege onderzoek naar Gemini observeert ook enkele veelvoorkomende problemen van MLLMs, wat aangeeft dat er nog steeds een aanzienlijke afstand is tot kunstmatige algemene intelligentie. Ons project voor het volgen van de voortgang van MLLM is vrijgegeven op https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models.
Taalmodelen (LMs) rapporteren doorgaans perplexiteit op monolitische data die buiten de training zijn gehouden. Impliciet of expliciet bestaat deze data uit domeinenx2013variërende distributies van taal. In plaats van aan te nemen dat perplexiteit op één distributie zich uitstrekt naar andere, meet Perplexity Analysis for Language Model Assessment (Paloma) de fit van een LM op 585 tekstdomeinen, variërend van nytimes.com tot r/depression op Reddit. Wij nodigen inzendingen uit voor onze benchmark en organiseren resultaten op basis van vergelijkbaarheid, afhankelijk van de naleving van richtlijnen zoals het verwijderen van benchmarkvervuiling uit de pretraining. Inzendingen kunnen ook het aantal parameters en trainings-tokens vastleggen om vergelijkingen van Pareto-efficiëntie te maken voor prestaties als functie van deze kostenmaatstaven. Wij vullen onze benchmark aan met resultaten van 6 baselines die zijn gepretraind op populaire corpora. In casestudies demonstreren we analyses die mogelijk zijn met Paloma, zoals de bevinding dat pretraining zonder data buiten Common Crawl leidt tot inconsistente fit op veel domeinen.
Recente op diffusie gebaseerde beeldbewerkingsmethoden hebben indrukwekkende bewerkingsmogelijkheden getoond in afbeeldingen met eenvoudige composities. Echter, gelokaliseerde bewerking in complexe scenario's is nog niet goed bestudeerd in de literatuur, ondanks de groeiende vraag in de praktijk. Bestaande masker-gebaseerde inpainting-methoden schieten tekort in het behouden van de onderliggende structuur binnen het bewerkingsgebied. Tegelijkertijd vertonen maskervrije, op aandacht gebaseerde methoden vaak bewerkingslekkage en uitlijningproblemen in complexere composities. In dit werk ontwikkelen we MAG-Edit, een trainingsvrije, optimalisatiemethode tijdens de inferentiefase, die gelokaliseerde beeldbewerking in complexe scenario's mogelijk maakt. In het bijzonder optimaliseert MAG-Edit de ruis-latente feature in diffusiemodellen door het maximaliseren van twee masker-gebaseerde cross-attention-beperkingen van het bewerkingstoken, wat op zijn beurt geleidelijk de lokale uitlijning met de gewenste prompt verbetert. Uitgebreide kwantitatieve en kwalitatieve experimenten tonen de effectiviteit van onze methode aan in het bereiken van zowel tekstuitlijning als structuurbehoud voor gelokaliseerde bewerking binnen complexe scenario's.
Dit artikel onderzoekt voorkeursdistillatie voor grote visueel-taalkundige modellen (LVLMs), om hun vermogen te verbeteren om nuttige en betrouwbare reacties te genereren die verankerd zijn in de visuele context. We bouwen eerst een visueel-taalkundig feedbackdataset (VLFeedback) met behulp van AI-annotatie. Specifiek worden reacties gegenereerd door modellen die zijn bemonsterd uit 12 LVLMs, gebaseerd op multimodale instructies afkomstig uit verschillende datasets. We gebruiken GPT-4V om de gegenereerde uitvoer te beoordelen op nuttigheid, visuele betrouwbaarheid en ethische overwegingen. Bovendien wordt de voorkeurssupervisie gedistilleerd in Qwen-VL-Chat via de directe voorkeursoptimalisatie (DPO) methode. Het resulterende model, Silkie, behaalt een relatieve verbetering van 6,9% en 9,5% op de MME-benchmark wat betreft perceptie- en cognitievermogens, respectievelijk. Silkie toont ook verminderde hallucinatie door een nieuwe state-of-the-art score van 3,02 te behalen op de MMHal-Bench benchmark. Verdere analyse toont aan dat DPO met onze VLFeedback-dataset voornamelijk de fijnmazige perceptie en complexe cognitieve vaardigheden van LVLMs versterkt, wat leidt tot meer uitgebreide verbeteringen in vergelijking met door mensen geannoteerde voorkeursdatasets.
Diffusiemodellen hebben aanzienlijke vooruitgang geboekt in het genereren van hoogwaardige afbeeldingen, maar hun toepassing op videogeneratie blijft uitdagend vanwege de complexiteit van temporele beweging. Zero-shot videobewerking biedt een oplossing door vooraf getrainde afbeeldingsdiffusiemodellen te gebruiken om bronvideo's om te zetten in nieuwe video's. Toch hebben bestaande methoden moeite om strikte temporele consistentie en efficiënt geheugengebruik te behouden. In dit werk stellen we een nieuwe aanpak voor om de temporele consistentie in gegenereerde video's te verbeteren door self-attention tokens over frames heen samen te voegen. Door temporeel redundante tokens over frames heen uit te lijnen en te comprimeren, verbetert onze methode de temporele samenhang en vermindert het geheugengebruik in self-attention berekeningen. De samenvoegstrategie matcht en lijn tokens uit op basis van de temporele correspondentie tussen frames, wat natuurlijke temporele consistentie in gegenereerde videoframes bevordert. Om de complexiteit van videoverwerking te beheersen, verdelen we video's in segmenten en ontwikkelen we intra-segment lokale token merging en inter-segment globale token merging, waardoor zowel kortetermijnvideocontinuïteit als langetermijninhoudsconsistentie wordt gewaarborgd. Onze videobewerkingsaanpak breidt de vooruitgang in afbeeldingsbewerking naadloos uit naar videobewerking, wat gunstige resultaten oplevert in temporele consistentie vergeleken met state-of-the-art methoden.
Speculatieve decodering verbetert de efficiëntie van grote taalmodelen (LLMs) door gebruik te maken van een conceptmodel om concepten te genereren die vervolgens door een groter doelmodel worden beoordeeld. Het genereren van concepten in speculatieve decodering omvat echter trage autoregressieve generatie en het produceren van tokens met verschillende belangrijkheid met dezelfde tijdsallocatie. Deze twee inefficiënties leiden tot suboptimale prestaties. Om dit probleem aan te pakken, introduceren we Cascade Speculative Drafting (CS. Drafting), een nieuwe aanpak die gebruikmaakt van twee soorten cascades. De Verticale Cascade elimineert autoregressieve generatie door neurale modellen. De Horizontale Cascade zorgt voor efficiënte tijdsallocatie bij het genereren van concepten, waarbij de optimaliteit wordt ondersteund door onze theoretische analyse. Door beide cascades te combineren, heeft ons CS. Drafting-algoritme in onze experimenten een extra snelheidswinst van tot 72 procent behaald ten opzichte van speculatieve decodering, terwijl dezelfde uitvoerdistributie behouden blijft.
Het succes van grote taalmodel(len) heeft de evaluatieparadigma's in natuurlijke taalverwerking (NLP) verschoven. De interesse van de gemeenschap is verschoven naar het vergelijken van NLP-modellen over vele taken, domeinen en datasets, vaak op een extreme schaal. Dit brengt nieuwe technische uitdagingen met zich mee: inspanningen voor het construeren van datasets en modellen zijn gefragmenteerd geweest, en hun formaten en interfaces zijn incompatibel. Als gevolg hiervan vergt het vaak uitgebreide (her)implementatie-inspanningen om eerlijke en gecontroleerde vergelijkingen op schaal te maken. Catwalk heeft als doel deze problemen aan te pakken. Catwalk biedt een uniforme interface voor een breed scala aan bestaande NLP-datasets en -modellen, variërend van zowel canonieke supervised training en fine-tuning, tot meer moderne paradigma's zoals in-context learning. Zijn zorgvuldig ontworpen abstracties maken eenvoudige uitbreidingen naar vele anderen mogelijk. Catwalk verlaagt aanzienlijk de drempels voor het uitvoeren van gecontroleerde experimenten op schaal. Zo hebben we bijvoorbeeld meer dan 64 modellen gefinetuned en geëvalueerd op meer dan 86 datasets met een enkele opdracht, zonder enige code te schrijven. Onderhouden door het AllenNLP-team van het Allen Institute for Artificial Intelligence (AI2), is Catwalk een doorlopende open-source-inspanning: https://github.com/allenai/catwalk.
Grote taalmodellen (LLMs) worden steeds vaker ingezet voor complexe meerstaps plannings taken, waarbij de tool retrieval (TR) stap cruciaal is voor het behalen van succesvolle resultaten. Twee veelvoorkomende benaderingen voor TR zijn enkelstaps retrieval, waarbij de volledige query wordt gebruikt, en sequentiële retrieval met behulp van taakdecompositie (TD), waarbij een volledige query wordt opgedeeld in discrete atomische subtaken. Hoewel enkelstaps retrieval de flexibiliteit mist om "inter-tool afhankelijkheid" te hanteren, vereist de TD-benadering het behoud van "subtask-tool atomiciteit alignering", aangezien de toolbox dynamisch kan evolueren. Om deze beperkingen aan te pakken, introduceren we het Progressive Tool retrieval to Improve Planning (ProTIP) framework. ProTIP is een lichtgewicht, op contrastief leren gebaseerd framework dat impliciet TD uitvoert zonder de expliciete behoefte aan subtask labels, terwijl het tegelijkertijd de subtask-tool atomiciteit behoudt. Op de ToolBench dataset overtreft ProTIP de op taakdecompositie gebaseerde aanpak van ChatGPT met een opmerkelijke marge, met een verbetering van 24% in Recall@K=10 voor TR en een verbetering van 41% in tool nauwkeurigheid voor planningsgeneratie.
Kennisdistillatiemethoden hebben recentelijk een veelbelovende richting laten zien om de synthese van grootschalige diffusiemodellen te versnellen door slechts een paar inferentiestappen te vereisen. Hoewel er recentelijk verschillende krachtige distillatiemethoden zijn voorgesteld, is de algehele kwaliteit van de gegenereerde studentmonsters doorgaans lager in vergelijking met die van de leraar, wat hun praktische toepassing belemmert. In dit werk onderzoeken we de relatieve kwaliteit van monsters die worden geproduceerd door het leraar tekst-naar-beeld diffusiemodel en zijn gedistilleerde studentversie. Als onze belangrijkste empirische bevinding ontdekken we dat een opmerkelijk deel van de studentmonsters een superieure kwaliteit vertoont in vergelijking met die van de leraar, ondanks de "benaderende" aard van de student. Op basis van deze bevinding stellen we een adaptieve samenwerking voor tussen student- en leraardiffusiemodellen voor effectieve tekst-naar-beeld synthese. Specifiek produceert het gedistilleerde model het initiële monster, waarna een orakel beslist of het verdere verbeteringen nodig heeft met een traag leraarmodel. Uitgebreide experimenten tonen aan dat de ontworpen pijplijn state-of-the-art tekst-naar-beeld alternatieven overtreft voor verschillende inferentiebudgetten in termen van menselijke voorkeur. Bovendien kan de voorgestelde aanpak natuurlijk worden gebruikt in populaire toepassingen zoals tekstgeleide beeldbewerking en controleerbare generatie.
Dit artikel introduceert een baanbrekende 3D volumetrische encoder die is ontworpen voor tekst-naar-3D-generatie. Om de trainingsdata voor het diffusiemodel op te schalen, is een lichtgewicht netwerk ontwikkeld om efficiënt featurevolumes te verkrijgen uit multi-view afbeeldingen. De 3D volumes worden vervolgens getraind op een diffusiemodel voor tekst-naar-3D-generatie met behulp van een 3D U-Net. Dit onderzoek gaat verder in op de uitdagingen van onnauwkeurige objectbeschrijvingen en hoogdimensionale featurevolumes. Het voorgestelde model, getraind op de openbare Objaverse dataset, toont veelbelovende resultaten in het produceren van diverse en herkenbare samples uit tekstprompts. Opmerkelijk is dat het fijnere controle mogelijk maakt over de kenmerken van objectonderdelen door middel van tekstuele aanwijzingen, wat de creativiteit van het model bevordert door naadloos meerdere concepten binnen een enkel object te combineren. Dit onderzoek draagt aanzienlijk bij aan de vooruitgang van 3D-generatie door een efficiënte, flexibele en schaalbare representatiemethodologie te introduceren. Code is beschikbaar op https://github.com/tzco/VolumeDiffusion.
Trainingsvrije begeleide sampling in diffusiemodellen maakt gebruik van kant-en-klare vooraf getrainde netwerken, zoals een esthetisch evaluatiemodel, om het generatieproces te sturen. Huidige trainingsvrije begeleide sampling-algoritmen verkrijgen de begeleidingsenergiefunctie op basis van een eenstapschatting van de schone afbeelding. Echter, aangezien de kant-en-klare vooraf getrainde netwerken zijn getraind op schone afbeeldingen, kan de eenstapschatting van de schone afbeelding onnauwkeurig zijn, vooral in de vroege fasen van het generatieproces in diffusiemodellen. Dit zorgt ervoor dat de begeleiding in de vroege tijdstappen onnauwkeurig is. Om dit probleem te overwinnen, stellen we Symplectic Adjoint Guidance (SAG) voor, dat de gradiëntbegeleiding in twee interne fasen berekent. Ten eerste schat SAG de schone afbeelding via n functieaanroepen, waarbij n dient als een flexibele hyperparameter die kan worden afgestemd om aan specifieke beeldkwaliteitseisen te voldoen. Ten tweede gebruikt SAG de symplectische adjoint-methode om de gradiënten nauwkeurig en efficiënt te verkrijgen wat betreft de geheugenvereisten. Uitgebreide experimenten tonen aan dat SAG afbeeldingen genereert met hogere kwaliteiten vergeleken met de basislijnen in zowel begeleide afbeelding- als videogeneratietaken.
Wij stellen een methode voor voor dynamische scène-reconstructie met behulp van vervormbare 3D-Gaussiaanse verdelingen die is afgestemd op monovideo. Gebaseerd op de efficiëntie van Gaussiaans splatten, breidt onze aanpak de representatie uit om dynamische elementen te accommoderen via een vervormbare set van Gaussiaanse verdelingen in een canonieke ruimte, en een tijdsafhankelijk vervormingsveld gedefinieerd door een multi-layer perceptron (MLP). Bovendien, onder de aanname dat de meeste natuurlijke scènes grote gebieden hebben die statisch blijven, laten we het MLP toe om zijn representatievermogen te concentreren door daarnaast een statische Gaussiaanse puntenwolk op te nemen. De samengevoegde dynamische en statische puntenwolken vormen de invoer voor de Gaussiaans Splatten-rasterizer, waardoor real-time rendering mogelijk wordt. Het differentieerbare pijplijn wordt end-to-end geoptimaliseerd met een zelfgesuperviseerd renderingverlies. Onze methode bereikt resultaten die vergelijkbaar zijn met state-of-the-art dynamische neurale stralingsveldmethoden, terwijl het veel snellere optimalisatie en rendering mogelijk maakt. Projectwebsite: https://lynl7130.github.io/gaufre/index.html