Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We introduceren "ImageDream," een innovatief beeldprompt, multi-view diffusiemodel voor 3D-objectgeneratie. ImageDream onderscheidt zich door zijn vermogen om 3D-modellen van hogere kwaliteit te produceren in vergelijking met bestaande state-of-the-art, beeldgeconditioneerde methoden. Onze aanpak maakt gebruik van een canonieke cameracoördinatie voor de objecten in beelden, wat de nauwkeurigheid van de visuele geometrie verbetert. Het model is ontworpen met verschillende niveaus van controle in elk blok binnen het diffusiemodel op basis van het invoerbeeld, waarbij globale controle de algehele objectlay-out vormgeeft en lokale controle de beelddetails verfijnt. De effectiviteit van ImageDream wordt aangetoond door middel van uitgebreide evaluaties met behulp van een standaard promptlijst. Voor meer informatie bezoek onze projectpagina op https://Image-Dream.github.io.
Diffusiemodellen domineren momenteel het veld van data-gedreven beeldgeneratie met hun ongeëvenaarde schaalbaarheid naar grote datasets. In dit artikel identificeren en corrigeren we verschillende oorzaken van ongelijkmatige en inefficiënte training in de populaire ADM-diffusiemodelarchitectuur, zonder de hoog-niveau structuur ervan aan te passen. Door ongecontroleerde grootteveranderingen en onevenwichtigheden in zowel de netwerkactivaties als de gewichten gedurende de training te observeren, herontwerpen we de netwerklagen om de grootte van activaties, gewichten en updates op verwachting te behouden. We constateren dat systematische toepassing van deze filosofie de waargenomen verschuivingen en onevenwichtigheden elimineert, wat resulteert in aanzienlijk betere netwerken bij gelijke rekencomplexiteit. Onze aanpassingen verbeteren het vorige FID-record van 2.41 in ImageNet-512-synthese naar 1.81, bereikt met snelle deterministische steekproefname. Als een onafhankelijke bijdrage presenteren we een methode voor het instellen van de exponentiële voortschrijdende gemiddelde (EMA) parameters achteraf, d.w.z. na het voltooien van de trainingsrun. Dit maakt een precieze afstemming van de EMA-lengte mogelijk zonder de kosten van het uitvoeren van meerdere trainingsruns, en onthult de verrassende interacties ervan met netwerkarchitectuur, trainingsduur en begeleiding.
De nauwkeurigheid van herbelichting wordt beperkt door zowel geometrie- als uiterlijkrepresentaties. Voor geometrie hebben zowel mesh- als volumetrische benaderingen moeite met het modelleren van ingewikkelde structuren zoals 3D-haargeometrie. Voor uiterlijk zijn bestaande herbelichtingsmodellen beperkt in nauwkeurigheid en vaak te traag om in realtime te renderen met hoogwaardige continue omgevingen. In dit werk presenteren we Relightable Gaussian Codec Avatars, een methode om hoogwaardige herbelichtbare hoofdavatars te bouwen die geanimeerd kunnen worden om nieuwe expressies te genereren. Ons geometriemodel, gebaseerd op 3D Gaussians, kan 3D-consistente details op submillimeterniveau vastleggen, zoals haarlokken en poriën in dynamische gezichtssequenties. Om diverse materialen van menselijke hoofden, zoals ogen, huid en haar, op een uniforme manier te ondersteunen, presenteren we een nieuw herbelichtbaar uiterlijkmodel gebaseerd op leerbare radiatieoverdracht. Samen met sferische harmonischen die bewust zijn van globale verlichting voor de diffuse componenten, bereiken we realtime herbelichting met ruimtelijk hoogfrequente reflecties met behulp van sferische Gaussians. Dit uiterlijkmodel kan efficiënt worden herbelicht onder zowel puntlicht als continue verlichting. We verbeteren verder de nauwkeurigheid van oogreflecties en maken expliciete blikcontrole mogelijk door herbelichtbare expliciete oogmodellen te introduceren. Onze methode overtreft bestaande benaderingen zonder in te leveren op realtime prestaties. We demonstreren ook realtime herbelichting van avatars op een gekoppelde consumenten-VR-headset, wat de efficiëntie en nauwkeurigheid van onze avatars aantoont.
We introduceren X-Adapter, een universele upgrademodule om vooraf getrainde plug-and-play modules (bijvoorbeeld ControlNet, LoRA) direct te laten werken met een geüpgradet tekst-naar-beeld diffusiemodel (bijvoorbeeld SDXL) zonder verdere hertraining. We bereiken dit doel door een extra netwerk te trainen om het bevroren geüpgradete model te besturen met nieuwe tekst-beeld dataparen. In detail behoudt X-Adapter een bevroren kopie van het oude model om de connectoren van verschillende plugins te behouden. Daarnaast voegt X-Adapter trainbare mappinglagen toe die de decoders van modellen van verschillende versies met elkaar verbinden voor feature-remapping. De geremapte features worden gebruikt als begeleiding voor het geüpgradete model. Om de begeleidingscapaciteit van X-Adapter te verbeteren, gebruiken we een null-text trainingsstrategie voor het geüpgradete model. Na de training introduceren we ook een tweestaps denoisingstrategie om de initiële latenten van X-Adapter en het geüpgradete model uit te lijnen. Dankzij onze strategieën toont X-Adapter universele compatibiliteit met verschillende plugins en maakt het ook mogelijk dat plugins van verschillende versies samenwerken, waardoor de functionaliteiten van de diffusiecommunity worden uitgebreid. Om de effectiviteit van de voorgestelde methode te verifiëren, voeren we uitgebreide experimenten uit en de resultaten tonen aan dat X-Adapter een bredere toepassing in het geüpgradete fundamentele diffusiemodel kan faciliteren.
Multimodale grote taalmodellen (MLLMs) hebben aanzienlijke aandacht gekregen vanwege hun sterke vermogen om multimodale informatie te begrijpen. Bestaande werken vertrouwen echter sterk op modale-specifieke encoders, die meestal verschillen in architectuur en beperkt zijn tot veelvoorkomende modaliteiten. In dit artikel presenteren we OneLLM, een MLLM dat acht modaliteiten aan taal koppelt met behulp van een uniform raamwerk. We bereiken dit door middel van een uniforme multimodale encoder en een progressieve multimodale uitlijningspijplijn. In detail trainen we eerst een beeldprojectiemodule om een visuele encoder te verbinden met een LLM. Vervolgens bouwen we een universele projectiemodule (UPM) door meerdere beeldprojectiemodules te combineren en dynamische routering toe te passen. Ten slotte lijnen we progressief meer modaliteiten uit met de LLM via de UPM. Om het volledige potentieel van OneLLM in het volgen van instructies te benutten, hebben we ook een uitgebreide multimodale instructiedataset samengesteld, met 2M items uit beeld, audio, video, puntenwolk, diepte/normaalmap, IMU en fMRI-hersenactiviteit. OneLLM wordt geëvalueerd op 25 diverse benchmarks, waaronder taken zoals multimodale beschrijving, vraagbeantwoording en redenering, waar het uitstekende prestaties levert. Code, data, model en een online demo zijn beschikbaar op https://github.com/csuhan/OneLLM.
Diffusiemodellen hebben recentelijk een revolutie teweeggebracht op het gebied van beeldgeneratie dankzij hun vermogen om fotorealistische beelden te genereren. Een van de grootste nadelen van diffusiemodellen is echter dat het proces van beeldgeneratie kostbaar is. Een groot beeld-naar-beeld netwerk moet vele malen worden toegepast om een beeld iteratief te verfijnen vanuit willekeurige ruis. Hoewel veel recente werken technieken voorstellen om het aantal benodigde stappen te verminderen, behandelen ze het onderliggende denoiserende netwerk over het algemeen als een black box. In dit werk onderzoeken we het gedrag van de lagen binnen het netwerk en ontdekken dat 1) de output van de lagen soepel verloopt in de tijd, 2) de lagen duidelijke patronen van verandering vertonen, en 3) de verandering van stap tot stap vaak zeer klein is. We veronderstellen dat veel laagberekeningen in het denoiserende netwerk overbodig zijn. Hierop voortbouwend introduceren we block caching, waarbij we outputs van laagblokken uit vorige stappen hergebruiken om de inferentie te versnellen. Bovendien stellen we een techniek voor om automatisch cacheschema's te bepalen op basis van de veranderingen van elk blok over de tijdstappen heen. In onze experimenten tonen we aan de hand van FID, menselijke evaluatie en kwalitatieve analyse aan dat Block Caching het mogelijk maakt om beelden met een hogere visuele kwaliteit te genereren tegen dezelfde rekenkosten. We demonstreren dit voor verschillende state-of-the-art modellen (LDM en EMU) en solvers (DDIM en DPM).
We presenteren LooseControl om gegeneraliseerde diepteconditionering mogelijk te maken voor diffusiegebaseerde beeldgeneratie. ControlNet, de state-of-the-art voor dieptegeconditioneerde beeldgeneratie, levert opmerkelijke resultaten op, maar is afhankelijk van gedetailleerde dieptekaarten als begeleiding. Het creëren van dergelijke exacte dieptekaarten is in veel scenario's echter uitdagend. Dit artikel introduceert een gegeneraliseerde versie van diepteconditionering die veel nieuwe workflows voor inhoudscreatie mogelijk maakt. Specifiek staan we toe (C1) scènegrenscontrole om scènes losjes te specificeren met alleen randvoorwaarden, en (C2) 3D-boxcontrole om de lay-outlocaties van de doelobjecten te specificeren in plaats van de exacte vorm en het uiterlijk van de objecten. Met LooseControl, in combinatie met tekstbegeleiding, kunnen gebruikers complexe omgevingen (bijv. kamers, straatbeelden, etc.) creëren door alleen scènegrenzen en locaties van primaire objecten te specificeren. Verder bieden we twee bewerkingsmechanismen om de resultaten te verfijnen: (E1) 3D-boxbewerking stelt de gebruiker in staat om afbeeldingen te verfijnen door boxen te wijzigen, toe te voegen of te verwijderen terwijl de stijl van de afbeelding behouden blijft. Dit resulteert in minimale wijzigingen, afgezien van de wijzigingen veroorzaakt door de bewerkte boxen. (E2) Attribuutbewerking stelt mogelijke bewerkingsrichtingen voor om één specifiek aspect van de scène te wijzigen, zoals de algehele objectdichtheid of een bepaald object. Uitgebreide tests en vergelijkingen met basislijnen demonstreren de algemeenheid van onze methode. Wij geloven dat LooseControl een belangrijk ontwerptool kan worden voor het eenvoudig creëren van complexe omgevingen en uitgebreid kan worden naar andere vormen van begeleidingskanalen. Code en meer informatie zijn beschikbaar op https://shariqfarooq123.github.io/loose-control/.
Aanpassingstechnieken voor tekst-naar-beeldmodellen hebben de weg vrijgemaakt voor een breed scala aan voorheen onbereikbare toepassingen, waardoor het genereren van specifieke concepten in diverse contexten en stijlen mogelijk wordt gemaakt. Hoewel bestaande methoden hoogwaardige aanpassing voor individuele concepten of een beperkte, vooraf gedefinieerde set ervan mogelijk maken, schieten ze tekort in het bereiken van schaalbaarheid, waarbij een enkel model naadloos talloze concepten kan weergeven. In dit artikel behandelen we een nieuw probleem genaamd Modulaire Aanpassing, met als doel om aangepaste modellen die onafhankelijk zijn verfijnd voor individuele concepten, efficiënt samen te voegen. Hierdoor kan het samengevoegde model gezamenlijk concepten in één afbeelding synthetiseren zonder in te leveren op kwaliteit of extra rekenkosten te maken. Om dit probleem aan te pakken, introduceren we Orthogonale Aanpassing, een methode die is ontworpen om ervoor te zorgen dat de aangepaste modellen, die tijdens het verfijnen geen toegang hebben tot elkaar, orthogonale restgewichten hebben. Dit garandeert dat tijdens de inferentie de aangepaste modellen met minimale interferentie kunnen worden opgeteld. Onze voorgestelde methode is zowel eenvoudig als veelzijdig, toepasbaar op bijna alle optimaliseerbare gewichten in de modelarchitectuur. Door middel van een uitgebreide reeks kwantitatieve en kwalitatieve evaluaties presteert onze methode consistent beter dan relevante referentiemethoden wat betreft efficiëntie en identiteitsbehoud, wat een significante stap voorwaarts betekent in de richting van schaalbare aanpassing van diffusiemodellen.
Het bewerken van visuele inhoud in video's blijft een aanzienlijke uitdaging met twee belangrijke problemen: 1) directe en eenvoudige gebruikerscontrole om 2) natuurlijke bewerkingsresultaten te produceren zonder lelijke vervormingen en artefacten na het wijzigen van vorm, expressie en lay-out. Geïnspireerd door DragGAN, een recente beeldgebaseerde drag-style bewerkingstechniek, pakken we de bovenstaande problemen aan door DragVideo voor te stellen, waarbij een vergelijkbare drag-style gebruikersinteractie wordt toegepast om video-inhoud te bewerken terwijl temporele consistentie behouden blijft. Aangedreven door recente diffusiemodellen zoals in DragDiffusion, bevat DragVideo de nieuwe Drag-on-Video U-Net (DoVe) bewerkingsmethode, die gediffuseerde videolatenten gegenereerd door video U-Net optimaliseert om de gewenste controle te bereiken. Specifiek gebruiken we Sample-specifieke LoRA fine-tuning en Mutual Self-Attention controle om een nauwkeurige reconstructie van de video vanuit de DoVe-methode te garanderen. We presenteren ook een reeks testvoorbeelden voor drag-style videobewerking en voeren uitgebreide experimenten uit over een breed scala aan uitdagende bewerkingstaken, zoals bewerking van beweging, skeletbewerking, enz., wat de veelzijdigheid en algemeenheid van DragVideo benadrukt. Onze codes, inclusief de DragVideo webgebruikersinterface, zullen worden vrijgegeven.
In dit tijdperk kan het succes van grote taalmodelen en tekst-naar-beeldmodellen worden toegeschreven aan de drijvende kracht van grootschalige datasets. In het domein van 3D-visie is echter, ondanks opmerkelijke vooruitgang met modellen die getraind zijn op grootschalige synthetische en echt vastgelegde objectdata zoals Objaverse en MVImgNet, een vergelijkbaar niveau van vooruitgang niet waargenomen in het domein van mensgerichte taken, deels vanwege het ontbreken van een grootschalige menselijke dataset. Bestaande datasets van hoogwaardige 3D-menselijke opnames blijven van gemiddelde omvang vanwege de aanzienlijke uitdagingen bij het verkrijgen van grootschalige, hoogwaardige 3D-menselijke data. Om deze kloof te overbruggen, presenteren we MVHumanNet, een dataset die multi-view menselijke actiesequenties van 4.500 menselijke identiteiten omvat. De primaire focus van ons werk ligt op het verzamelen van menselijke data die een groot aantal diverse identiteiten en alledaagse kleding bevatten met behulp van een multi-view menselijk opnamesysteem, wat gemakkelijk schaalbare datacollectie mogelijk maakt. Onze dataset bevat 9.000 dagelijkse outfits, 60.000 bewegingssequenties en 645 miljoen frames met uitgebreide annotaties, waaronder menselijke maskers, cameraparameters, 2D- en 3D-sleutelpunten, SMPL/SMPLX-parameters en bijbehorende tekstuele beschrijvingen. Om het potentieel van MVHumanNet in diverse 2D- en 3D-visuele taken te verkennen, hebben we pilotstudies uitgevoerd op het gebied van view-consistente actieherkenning, menselijke NeRF-reconstructie, tekstgedreven view-onbeperkte menselijke beeldgeneratie, evenals 2D view-onbeperkte menselijke beeld- en 3D-avatargeneratie. Uitgebreide experimenten tonen de prestatieverbeteringen en effectieve toepassingen aan die mogelijk worden gemaakt door de schaal die MVHumanNet biedt. Als de huidige grootste 3D-menselijke dataset hopen we dat de release van MVHumanNet-data met annotaties verdere innovaties zal stimuleren in het domein van grootschalige 3D-mensgerichte taken.
3D-reconstructiemethoden zoals Neural Radiance Fields (NeRFs) blinken uit in het renderen van fotorealistische nieuwe aanzichten van complexe scènes. Het herstellen van een hoogwaardige NeRF vereist echter doorgaans tientallen tot honderden invoerbeelden, wat resulteert in een tijdrovend opnameproces. Wij presenteren ReconFusion om real-world scènes te reconstrueren met slechts een paar foto's. Onze aanpak maakt gebruik van een diffusieprior voor de synthese van nieuwe aanzichten, getraind op synthetische en multiview-datasets, die een NeRF-gebaseerde 3D-reconstructiepipeline regulariseert bij nieuwe cameraposities die verder gaan dan die vastgelegd door de set invoerbeelden. Onze methode synthetiseert realistische geometrie en textuur in onderbeperkte regio's, terwijl het uiterlijk van waargenomen regio's behouden blijft. We voeren een uitgebreide evaluatie uit over verschillende real-world datasets, waaronder voorwaarts gerichte en 360-graden scènes, wat aanzienlijke prestatieverbeteringen aantoont ten opzichte van eerdere NeRF-reconstructiebenaderingen met weinig aanzichten.
Agent-gebaseerd modelleren bestaat al tientallen jaren en wordt breed toegepast in de sociale en natuurwetenschappen. De reikwijdte van deze onderzoeksmethode staat op het punt om aanzienlijk te groeien nu het gebruikmaakt van de nieuwe mogelijkheden die worden geboden door Large Language Models (LLM's). Generative Agent-Based Models (GABM) zijn niet zomaar klassieke Agent-Based Models (ABM) waarbij de agents met elkaar praten. In plaats daarvan worden GABM's geconstrueerd met behulp van een LLM om gezond verstand toe te passen in situaties, "redelijk" te handelen, algemene semantische kennis op te roepen, API-aanroepen te produceren om digitale technologieën zoals apps te besturen, en zowel binnen de simulatie als naar onderzoekers die deze van buitenaf bekijken te communiceren. Hier presenteren we Concordia, een bibliotheek om het construeren en werken met GABM's te vergemakkelijken. Concordia maakt het eenvoudig om taal-gemedieerde simulaties te construeren van fysiek of digitaal verankerde omgevingen. Concordia-agents produceren hun gedrag met behulp van een flexibel componentsysteem dat bemiddelt tussen twee fundamentele operaties: LLM-aanroepen en het ophalen van associatieve herinneringen. Een speciale agent genaamd de Game Master (GM), geïnspireerd door tabletop-rollenspellen, is verantwoordelijk voor het simuleren van de omgeving waarin de agents interacteren. Agents nemen acties door te beschrijven wat ze willen doen in natuurlijke taal. De GM vertaalt vervolgens hun acties naar passende implementaties. In een gesimuleerde fysieke wereld controleert de GM de fysieke plausibiliteit van agentacties en beschrijft hun effecten. In digitale omgevingen die technologieën zoals apps en services simuleren, kan de GM API-aanroepen afhandelen om te integreren met externe tools zoals algemene AI-assistenten (bijv. Bard, ChatGPT) en digitale apps (bijv. Agenda, E-mail, Zoeken, enz.). Concordia is ontworpen om een breed scala aan toepassingen te ondersteunen, zowel in wetenschappelijk onderzoek als voor het evalueren van de prestaties van echte digitale diensten door gebruikers te simuleren en/of synthetische data te genereren.
Wij stellen een methode voor om materiaaleigenschappen van objecten zoals ruwheid, metallic, albedo en transparantie in echte afbeeldingen te beheersen. Onze methode maakt gebruik van de generatieve prior van tekst-naar-beeldmodellen die bekend staan om hun fotorealisme, waarbij een scalaire waarde en instructies worden ingezet om laagniveau materiaaleigenschappen aan te passen. Om het gebrek aan datasets met gecontroleerde materiaaleigenschappen aan te pakken, hebben we een objectgericht synthetisch dataset gegenereerd met fysiek gebaseerde materialen. Het finetunen van een aangepast, vooraf getraind tekst-naar-beeldmodel op deze synthetische dataset stelt ons in staat om materiaaleigenschappen in afbeeldingen uit de echte wereld te bewerken, terwijl alle andere eigenschappen behouden blijven. We tonen de potentiële toepassing van ons model aan op materiaal bewerkte NeRFs.
Onlangs is er aanzienlijke vooruitgang geboekt in tekstgebaseerde bewegingsgeneratie, waardoor het mogelijk is geworden om diverse en hoogwaardige menselijke bewegingen te genereren die voldoen aan tekstuele beschrijvingen. Het blijft echter een uitdaging om fijnmazige of gestileerde bewegingen te genereren vanwege het gebrek aan datasets die zijn geannoteerd met gedetailleerde tekstuele beschrijvingen. Door een verdeel-en-heers-strategie toe te passen, stellen we een nieuw framework voor genaamd Fine-Grained Human Motion Diffusion Model (FG-MDM) voor de generatie van menselijke bewegingen. Specifiek parsen we eerst eerdere vage tekstuele annotaties in fijnmazige beschrijvingen van verschillende lichaamsdelen door gebruik te maken van een groot taalmodel (GPT-3.5). Vervolgens gebruiken we deze fijnmazige beschrijvingen om een transformer-gebaseerd diffusiemodel te sturen. FG-MDM kan fijnmazige en gestileerde bewegingen genereren, zelfs buiten de verdeling van de trainingsdata. Onze experimentele resultaten tonen de superioriteit van FG-MDM aan ten opzichte van eerdere methoden, met name de sterke generalisatiecapaciteit. We zullen onze fijnmazige tekstuele annotaties voor HumanML3D en KIT vrijgeven.
Ons begrip van de visuele wereld is gecentreerd rond verschillende conceptassen, die verschillende aspecten van visuele entiteiten karakteriseren. Hoewel verschillende conceptassen eenvoudig kunnen worden gespecificeerd door taal, zoals kleur, overstijgen de exacte visuele nuances langs elke as vaak de beperkingen van linguïstische articulaties, zoals een specifieke schilderstijl. In dit werk is ons doel om een taalgeïnformeerde visuele conceptrepresentatie te leren, door simpelweg grote vooraf getrainde visie-taalmodellen te destilleren. Specifiek trainen we een set conceptencoders om de informatie te coderen die relevant is voor een set taalgeïnformeerde conceptassen, met als doel het invoerbeeld te reproduceren via een vooraf getraind tekst-naar-beeld (T2I) model. Om een betere ontvlechting van verschillende conceptencoders aan te moedigen, verankeren we de concept-embeddings aan een set tekst-embeddings die zijn verkregen uit een vooraf getraind visueel vraag-antwoord (VQA) model. Tijdens inferentie extraheert het model concept-embeddings langs verschillende assen uit nieuwe testbeelden, die kunnen worden hergemengd om beelden te genereren met nieuwe composities van visuele concepten. Met een lichtgewicht fine-tuningprocedure tijdens de testfase kan het model ook generaliseren naar nieuwe concepten die niet zijn gezien tijdens de training.
Interacties met virtuele assistenten beginnen doorgaans met een triggerzin gevolgd door een opdracht. In dit werk onderzoeken we de mogelijkheid om deze interacties natuurlijker te maken door de noodzaak van een triggerzin te elimineren. Ons doel is om te bepalen of een gebruiker de virtuele assistent heeft aangesproken op basis van signalen verkregen uit de streaming audio die door de microfoon van het apparaat is opgenomen. We benaderen deze taak door 1-best hypothesen en decoder-signalen van een automatisch spraakherkenningssysteem te combineren met akoestische representaties van een audio-encoder als invoerkenmerken voor een groot taalmodel (LLM). We zijn met name geïnteresseerd in data- en resource-efficiënte systemen die slechts een kleine hoeveelheid trainingsdata vereisen en kunnen functioneren in scenario's waarbij slechts één bevroren LLM beschikbaar is op een apparaat. Om deze reden is ons model getraind op 80.000 of minder voorbeelden van multimodale data met behulp van een combinatie van low-rank aanpassing en prefix tuning. We vergelijken het voorgestelde systeem met unimodale basislijnen en tonen aan dat de multimodale aanpak lagere equal-error-rates (EERs) bereikt, terwijl slechts een fractie van de trainingsdata wordt gebruikt. We laten ook zien dat laagdimensionale gespecialiseerde audio-representaties leiden tot lagere EERs dan hoogdimensionale algemene audio-representaties.