Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We introduceren StreamDiffusion, een real-time diffusiepijplijn ontworpen voor interactieve beeldgeneratie. Bestaande diffusiemodellen zijn bedreven in het creëren van beelden vanuit tekst- of beeldprompts, maar schieten vaak tekort in real-time interactie. Deze beperking wordt vooral duidelijk in scenario's met continue invoer, zoals de Metaverse, live videostreaming en uitzendingen, waar een hoge doorvoersnelheid essentieel is. Om dit aan te pakken, presenteren we een nieuwe aanpak die het oorspronkelijke sequentiële denoisen transformeert naar een batchgewijs denoisen. Stream Batch elimineert de conventionele wacht-en-interactie aanpak en maakt vloeiende en hoogdoorvoerende streams mogelijk. Om de frequentieverschillen tussen gegevensinvoer en modeldoorvoer te hanteren, ontwerpen we een nieuwe invoer-uitvoerwachtrij voor het paralleliseren van het streamingproces. Bovendien gebruikt de bestaande diffusiepijplijn classifier-free guidance (CFG), wat extra U-Net-berekeningen vereist. Om overbodige berekeningen te verminderen, stellen we een nieuw residual classifier-free guidance (RCFG)-algoritme voor dat het aantal negatieve conditionele denoisingstappen terugbrengt tot slechts één of zelfs nul. Daarnaast introduceren we een stochastische gelijkenisfilter (SSF) om het energieverbruik te optimaliseren. Onze Stream Batch behaalt een versnelling van ongeveer 1,5x vergeleken met de sequentiële denoisingmethode op verschillende denoisingniveaus. De voorgestelde RCFG leidt tot snelheden tot 2,05x hoger dan de conventionele CFG. Door de voorgestelde strategieën te combineren met bestaande volwassen versnellingsinstrumenten, bereikt de beeld-naar-beeldgeneratie tot 91,07 fps op één RTX4090, wat de doorvoersnelheden van AutoPipline ontwikkeld door Diffusers met meer dan 59,56x verbetert. Bovendien vermindert onze voorgestelde StreamDiffusion ook aanzienlijk het energieverbruik met 2,39x op één RTX3060 en 1,99x op één RTX4090, respectievelijk.
We presenteren VideoPoet, een taalmodel dat in staat is om hoogwaardige video's, inclusief bijpassende audio, te synthetiseren vanuit een grote verscheidenheid aan conditioneringssignalen. VideoPoet maakt gebruik van een decoder-only transformer-architectuur die multimodale invoer verwerkt — waaronder afbeeldingen, video's, tekst en audio. Het trainingsprotocol volgt dat van Large Language Models (LLMs) en bestaat uit twee fasen: voorafgaande training en taakspecifieke aanpassing. Tijdens de voorafgaande training integreert VideoPoet een mix van multimodale generatieve doelstellingen binnen een autoregressief Transformer-raamwerk. Het vooraf getrainde LLM dient als basis die kan worden aangepast voor een reeks videogeneratietaken. We presenteren empirische resultaten die de state-of-the-art mogelijkheden van het model aantonen in zero-shot videogeneratie, met specifieke nadruk op de vaardigheid van VideoPoet om hoogwaardige bewegingen te genereren. Projectpagina: http://sites.research.google/videopoet/
Dit artikel introduceert PowerInfer, een high-speed inference-engine voor Large Language Models (LLM) op een personal computer (PC) uitgerust met een enkele consumenten-GPU. De kern van het ontwerp van PowerInfer ligt in het benutten van de hoge localiteit die inherent is aan LLM-inference, gekenmerkt door een power-lawverdeling in neuronactivatie. Deze verdeling geeft aan dat een kleine subset van neuronen, aangeduid als hot neurons, consistent geactiveerd worden over verschillende inputs, terwijl de meerderheid, cold neurons, varieert op basis van specifieke inputs. PowerInfer maakt gebruik van dit inzicht om een GPU-CPU hybride inference-engine te ontwerpen: hot-activated neuronen worden vooraf geladen op de GPU voor snelle toegang, terwijl cold-activated neuronen op de CPU worden berekend, waardoor de GPU-geheugenbehoefte en CPU-GPU dataoverdrachten aanzienlijk worden verminderd. PowerInfer integreert verder adaptieve voorspellers en neuron-aware sparse operators, wat de efficiëntie van neuronactivatie en computationele sparsity optimaliseert. Evaluatie toont aan dat PowerInfer een gemiddelde token-generatiesnelheid van 13,20 tokens/s bereikt, met een piek van 29,08 tokens/s, over verschillende LLM's (inclusief OPT-175B) op een enkele NVIDIA RTX 4090 GPU, slechts 18% lager dan wat bereikt wordt door een top-tier server-grade A100 GPU. Dit overtreft llama.cpp aanzienlijk met een factor tot 11,69x, terwijl de modelnauwkeurigheid behouden blijft.
Het menselijk vermogen om multimodale taken gemakkelijk in context op te lossen (d.w.z. met slechts enkele demonstraties of eenvoudige instructies), is iets waar huidige multimodale systemen grotendeels moeite mee hebben om na te bootsen. In dit werk tonen we aan dat de taakonafhankelijke in-context leermogelijkheden van grote multimodale modellen aanzienlijk kunnen worden verbeterd door effectief opschalen. We introduceren Emu2, een generatief multimodaal model met 37 miljard parameters, getraind op grootschalige multimodale sequenties met een uniform autoregressief doel. Emu2 vertoont sterke multimodale in-context leermogelijkheden en lost zelfs taken op die on-the-fly redenering vereisen, zoals visuele prompting en objectgebaseerde generatie. Het model vestigt een nieuw record op meerdere multimodale begripstaken in few-shot settings. Wanneer het model wordt afgestemd op het volgen van specifieke instructies, behaalt Emu2 verder nieuwe state-of-the-art resultaten op uitdagende taken zoals vraag-antwoordbenchmarks voor grote multimodale modellen en open-ended onderwerpgedreven generatie. Deze prestaties tonen aan dat Emu2 kan dienen als een basismodel en algemene interface voor een breed scala aan multimodale taken. Code en modellen zijn publiekelijk beschikbaar om toekomstig onderzoek te faciliteren.
Het genereren van emotionele pratende gezichten vanuit een enkele portretfoto blijft een aanzienlijke uitdaging. Het gelijktijdig bereiken van expressief emotioneel praten en nauwkeurige lip-sync is bijzonder moeilijk, omdat expressiviteit vaak wordt opgeofferd voor de nauwkeurigheid van lip-sync. Zoals veel eerdere werken hebben aangenomen, slaagt het LSTM-netwerk er vaak niet in om de subtiliteiten en variaties van emotionele expressies vast te leggen. Om deze uitdagingen aan te pakken, introduceren we DREAM-Talk, een tweestaps diffuusgebaseerd audio-gestuurd framework, ontworpen voor het gelijktijdig genereren van diverse expressies en nauwkeurige lip-sync. In de eerste fase stellen we EmoDiff voor, een innovatieve diffusiemodule die diverse, zeer dynamische emotionele expressies en hoofdposes genereert in overeenstemming met de audio en de referentie-emotiestijl. Gezien de sterke correlatie tussen lipbeweging en audio, verfijnen we vervolgens de dynamiek met verbeterde lip-sync nauwkeurigheid door gebruik te maken van audiofeatures en emotiestijl. Hiertoe implementeren we een video-naar-video renderingmodule om de expressies en lipbewegingen van onze proxy 3D-avatar over te dragen naar een willekeurig portret. Zowel kwantitatief als kwalitatief overtreft DREAM-Talk state-of-the-art methoden op het gebied van expressiviteit, lip-sync nauwkeurigheid en perceptuele kwaliteit.
Diffusiegebaseerde modellen hebben indrukwekkende mogelijkheden getoond voor tekst-naar-beeldgeneratie en worden verwacht voor gepersonaliseerde toepassingen van onderwerpgedreven generatie, waarbij het genereren van aangepaste concepten met één of enkele referentiebeelden vereist is. Bestaande methoden die gebaseerd zijn op fine-tuning slagen er echter niet in om de afweging tussen onderwerpleer en het behoud van de generatiemogelijkheden van vooraf getrainde modellen in balans te brengen. Bovendien verliezen andere methoden die gebruikmaken van aanvullende beeldencoders belangrijke details van het onderwerp door compressie tijdens het encoderen. Om deze uitdagingen aan te pakken, stellen we DreamTurner voor, een nieuwe methode die referentie-informatie van grof naar fijn injecteert om onderwerpgedreven beeldgeneratie effectiever te realiseren. DreamTurner introduceert een onderwerp-encoder voor het grofweg behouden van de onderwerpidentiteit, waarbij de gecomprimeerde algemene onderwerpkenmerken worden geïntroduceerd via een aandachtlaag vóór visueel-tekst kruisattentie. Vervolgens passen we de zelf-attentielagen binnen vooraf getrainde tekst-naar-beeldmodellen aan naar zelf-onderwerp-attentielagen om de details van het doelonderwerp te verfijnen. Het gegenereerde beeld vraagt gedetailleerde kenmerken op van zowel het referentiebeeld als zichzelf in zelf-onderwerp-attentie. Het is belangrijk te benadrukken dat zelf-onderwerp-attentie een effectieve, elegante en trainingsvrije methode is voor het behouden van de gedetailleerde kenmerken van aangepaste onderwerpen en kan dienen als een plug-and-play oplossing tijdens inferentie. Ten slotte bereikt DreamTurner met aanvullende onderwerpgedreven fine-tuning opmerkelijke prestaties in onderwerpgedreven beeldgeneratie, die kan worden bestuurd door tekst of andere condities zoals pose. Voor meer details kunt u de projectpagina bezoeken op https://dreamtuner-diffusion.github.io/.
Hoewel methoden voor monoculaire diepteschatting aanzienlijke vooruitgang hebben geboekt op standaard benchmarks, blijft zero-shot metrische diepteschatting een onopgelost probleem. Uitdagingen omvatten het gezamenlijk modelleren van binnen- en buitenscènes, die vaak aanzienlijk verschillende verdelingen van RGB en diepte vertonen, en de diepteschaalambiguïteit als gevolg van onbekende camera-intrinsieken. Recent werk heeft gespecialiseerde multi-head-architecturen voorgesteld voor het gezamenlijk modelleren van binnen- en buitenscènes. Daarentegen pleiten wij voor een generiek, taak-agnostisch diffusiemodel, met verschillende verbeteringen zoals logaritmische diepteparameterisatie om gezamenlijke modellering van binnen- en buitenscènes mogelijk te maken, conditionering op het gezichtsveld (FOV) om schaalambiguïteit aan te pakken en synthetische augmentatie van FOV tijdens de training om generalisatie mogelijk te maken buiten de beperkte camera-intrinsieken in trainingsdatasets. Bovendien bereikt onze methode, DMD (Diffusion for Metric Depth), door het gebruik van een meer diverse trainingsmix dan gebruikelijk en een efficiënte diffusieparameterisatie, een reductie van 25% in relatieve fout (REL) op zero-shot binnenscènes en een reductie van 33% op zero-shot buitenscène datasets ten opzichte van de huidige state-of-the-art, met slechts een klein aantal denoiseringsstappen. Voor een overzicht zie https://diffusion-vision.github.io/dmd.
In dit artikel introduceren we Fairy, een minimalistische maar robuuste aanpassing van beeldbewerkings-diffusiemodellen, die ze verbetert voor videobewerkingsapplicaties. Onze aanpak draait om het concept van ankergebaseerde cross-frame aandacht, een mechanisme dat diffusiekenmerken impliciet verspreidt over frames, wat superieure temporele coherentie en hoogwaardige synthese garandeert. Fairy adresseert niet alleen de beperkingen van eerdere modellen, waaronder geheugen en verwerkingssnelheid. Het verbetert ook temporele consistentie door een unieke data-augmentatiestrategie. Deze strategie maakt het model equivariant voor affiene transformaties in zowel bron- als doelbeelden. Opmerkelijk efficiënt genereert Fairy 120 frames van 512x384 video’s (4 seconden duur bij 30 FPS) in slechts 14 seconden, wat eerdere werken minstens 44x overtreft. Een uitgebreide gebruikersstudie, met 1000 gegenereerde samples, bevestigt dat onze aanpak superieure kwaliteit levert en gevestigde methodes duidelijk overtreft.
Diffusiemodellen zijn uitgegroeid tot het de facto paradigma voor videogeneratie. Hun afhankelijkheid van web-schaal data van wisselende kwaliteit resulteert echter vaak in visueel onaantrekkelijke resultaten die niet overeenkomen met de tekstuele prompts. Om dit probleem aan te pakken, stellen we InstructVideo voor om tekst-naar-video diffusiemodellen te instrueren met menselijke feedback door middel van reward fine-tuning. InstructVideo heeft twee belangrijke componenten: 1) Om de kosten van reward fine-tuning, veroorzaakt door het genereren via de volledige DDIM sampling chain, te verminderen, herformuleren we reward fine-tuning als bewerking. Door gebruik te maken van het diffusieproces om een gegenereerde video te corrumperen, vereist InstructVideo slechts gedeeltelijke inferentie van de DDIM sampling chain, wat de fine-tuning kosten verlaagt en de fine-tuning efficiëntie verbetert. 2) Om het ontbreken van een toegewijd videorewardmodel voor menselijke voorkeuren te ondervangen, hergebruiken we gevestigde beeldrewardmodellen, zoals HPSv2. Hiertoe stellen we Segmental Video Reward voor, een mechanisme om beloningssignalen te geven op basis van segmentale sparse sampling, en Temporally Attenuated Reward, een methode die tijdelijk modelleringsverlies tijdens fine-tuning vermindert. Uitgebreide experimenten, zowel kwalitatief als kwantitatief, valideren de praktische bruikbaarheid en effectiviteit van het gebruik van beeldrewardmodellen in InstructVideo, wat de visuele kwaliteit van gegenereerde video's aanzienlijk verbetert zonder in te boeten op generalisatiecapaciteiten. Code en modellen zullen publiekelijk beschikbaar worden gemaakt.
We introduceren de Splatter Image, een ultrazwelle aanpak voor monoculaire 3D-objectreconstructie die opereert met 38 FPS. Splatter Image is gebaseerd op Gaussian Splatting, dat recentelijk real-time rendering, snelle training en uitstekende schaalbaarheid heeft gebracht naar multi-view reconstructie. Voor het eerst passen we Gaussian Splatting toe in een monoculaire reconstructie-instelling. Onze aanpak is leer-gebaseerd, en tijdens de testfase vereist reconstructie alleen de feed-forward evaluatie van een neuraal netwerk. De belangrijkste innovatie van Splatter Image is het verrassend eenvoudige ontwerp: het gebruikt een 2D image-to-image netwerk om de invoerafbeelding te mappen naar één 3D Gaussiaan per pixel. De resulterende Gaussiaanse verdelingen hebben dus de vorm van een afbeelding, de Splatter Image. We breiden de methode verder uit om meer dan één afbeelding als invoer te incorporeren, wat we doen door cross-view aandacht toe te voegen. Dankzij de snelheid van de renderer (588 FPS) kunnen we een enkele GPU gebruiken voor training terwijl we volledige afbeeldingen genereren bij elke iteratie om perceptuele metrieken zoals LPIPS te optimaliseren. Op standaard benchmarks demonstreren we niet alleen snelle reconstructie, maar ook betere resultaten dan recente en veel duurdere baselines in termen van PSNR, LPIPS en andere metrieken.
Onlangs heeft het Segment Anything Model (SAM) krachtige segmentatiecapaciteiten getoond en grote aandacht getrokken in het veld van computervisie. Talrijke vervolgwerken hebben diverse toepassingen ontwikkeld op basis van het vooraf getrainde SAM en indrukwekkende prestaties behaald bij downstream visietaken. Echter, SAM bestaat uit zware architecturen en vereist enorme rekenkracht, wat de verdere toepassing van SAM op rekenkrachtig beperkte edge-apparaten belemmert. Daarom stellen we in dit artikel een framework voor om een klein Segment Anything Model (TinySAM) te verkrijgen, terwijl de sterke zero-shot prestaties behouden blijven. We introduceren eerst een full-stage knowledge distillation methode met een online hard prompt sampling strategie om een lichtgewicht studentmodel te distilleren. We passen ook de post-training kwantisatie aan aan de promptable segmentatietaak en verminderen verder de rekenkosten. Bovendien wordt een hiërarchische segmenting everything strategie voorgesteld om de everything inferentie te versnellen met een factor 2, bijna zonder prestatieverlies. Met al deze voorgestelde methoden leidt onze TinySAM tot een orde van grootte reductie in rekenkracht en verlegt het de grenzen voor efficiënte Segment Anything taken. Uitgebreide experimenten op diverse zero-shot transfer taken demonstreren de significante prestatievoordelen van onze TinySAM ten opzichte van tegenhanger methoden. Vooraf getrainde modellen en codes zullen beschikbaar zijn op https://github.com/xinghaochen/TinySAM en https://gitee.com/mindspore/models/tree/master/research/cv/TinySAM.
Dit werk introduceert een nieuw Transformer-model genaamd Cached Transformer, dat Gated Recurrent Cached (GRC) attention gebruikt om het self-attention mechanisme uit te breiden met een differentieerbaar geheugencache van tokens. GRC attention maakt het mogelijk om zowel naar verleden als huidige tokens aandacht te besteden, waardoor het receptieve veld van attention wordt vergroot en het mogelijk wordt om langeafstandsafhankelijkheden te verkennen. Door een recurrent gating unit te gebruiken om de cache continu bij te werken, behaalt ons model aanzienlijke vooruitgang in zes taal- en visietaken, waaronder taalmodellering, machinaal vertalen, ListOPs, beeldclassificatie, objectdetectie en instancesegmentatie. Bovendien overtreft onze aanpak eerdere geheugen-gebaseerde technieken in taken zoals taalmodellering en toont het vermogen om in een breder scala aan situaties toegepast te worden.
Om menselijke behendigheid te bereiken, moeten robots ruimtelijk bewustzijn afleiden uit multimodale sensoren om te redeneren over contactinteracties. Tijdens in-hand manipulatie van nieuwe objecten omvat dit ruimtelijk bewustzijn het schatten van de pose en vorm van het object. De huidige stand van zaken voor in-hand perceptie maakt voornamelijk gebruik van visie en beperkt zich tot het volgen van a priori bekende objecten. Bovendien is visuele occlusie van objecten in de hand onvermijdelijk tijdens manipulatie, waardoor huidige systemen niet verder kunnen gaan dan taken zonder occlusie. Wij combineren visie en tastgevoel op een hand met meerdere vingers om de pose en vorm van een object te schatten tijdens in-hand manipulatie. Onze methode, NeuralFeels, codeert objectgeometrie door online een neuraal veld te leren en volgt het gezamenlijk door een pose-grafiekprobleem te optimaliseren. We bestuderen multimodale in-hand perceptie in simulatie en de echte wereld, waarbij we interageren met verschillende objecten via een proprioceptie-gestuurd beleid. Onze experimenten tonen uiteindelijke reconstructie F-scores van 81% en gemiddelde pose-drifts van 4,7 mm, verder gereduceerd tot 2,3 mm met bekende CAD-modellen. Daarnaast observeren we dat onder zware visuele occlusie we tot 94% verbeteringen in tracking kunnen bereiken in vergelijking met visie-only methoden. Onze resultaten tonen aan dat tast, op zijn minst, visuele schattingen verfijnt en, op zijn best, ambiguïteit oplost tijdens in-hand manipulatie. We publiceren onze evaluatiedataset van 70 experimenten, FeelSight, als een stap naar benchmarking in dit domein. Onze neurale representatie aangedreven door multimodale sensoren kan dienen als een perceptie-backbone voor het bevorderen van robotbehendigheid. Video's zijn te vinden op onze projectwebsite https://suddhu.github.io/neural-feels/.
Recente vooruitgang in generatieve AI heeft beeld- en videobewerking aanzienlijk verbeterd, met name in de context van tekstpromptcontrole. State-of-the-art benaderingen maken voornamelijk gebruik van diffusiemodellen om deze taken uit te voeren. De rekenkundige eisen van diffusiegebaseerde methoden zijn echter aanzienlijk, wat vaak grote gepaarde datasets voor training vereist en daardoor de implementatie in praktische toepassingen bemoeilijkt. Deze studie gaat deze uitdaging aan door het tekstgebaseerde videobewerkingsproces op te splitsen in twee afzonderlijke fasen. In de eerste fase benutten we een bestaand tekst-naar-beeld diffusiemodel om enkele keyframes gelijktijdig te bewerken zonder aanvullende fine-tuning. In de tweede fase introduceren we een efficiënt model genaamd MaskINT, dat is gebaseerd op niet-autoregressieve gemaskeerde generatieve transformatoren en gespecialiseerd is in frame-interpolatie tussen de keyframes, waarbij het profiteert van structurele begeleiding door tussenliggende frames. Onze uitgebreide set experimenten illustreert de effectiviteit en efficiëntie van MaskINT in vergelijking met andere diffusiegebaseerde methodologieën. Dit onderzoek biedt een praktische oplossing voor tekstgebaseerde videobewerking en toont het potentieel van niet-autoregressieve gemaskeerde generatieve transformatoren in dit domein.
Tekstgeleide diffusiemodellen hebben een revolutie teweeggebracht in beeld- en videogeneratie en zijn ook succesvol gebruikt voor optimalisatiegebaseerde 3D-objectsynthese. Hier richten we ons in plaats daarvan op de onderbelichte tekst-naar-4D-instelling en synthetiseren we dynamische, geanimeerde 3D-objecten met behulp van score-distillatiemethoden met een extra tijdsdimensie. In vergelijking met eerder werk volgen we een nieuwe compositiegebaseerde generatiebenadering en combineren we tekst-naar-beeld, tekst-naar-video en 3D-bewuste multiview-diffusiemodellen om feedback te geven tijdens 4D-objectoptimalisatie, waardoor tegelijkertijd temporele consistentie, hoogwaardig visueel uiterlijk en realistische geometrie worden afgedwongen. Onze methode, genaamd Align Your Gaussians (AYG), maakt gebruik van dynamische 3D Gaussian Splatting met vervormingsvelden als 4D-representatie. Cruciaal voor AYG is een nieuwe methode om de verdeling van de bewegende 3D-gaussiaanse verdelingen te regulariseren en daarmee de optimalisatie te stabiliseren en beweging te induceren. We stellen ook een mechanisme voor bewegingversterking voor, evenals een nieuw autoregressief syntheschema om meerdere 4D-sequenties te genereren en te combineren voor langere generatie. Deze technieken stellen ons in staat om levendige dynamische scènes te synthetiseren, kwalitatief en kwantitatief beter te presteren dan eerder werk en state-of-the-art tekst-naar-4D-prestaties te bereiken. Door de gaussiaanse 4D-representatie kunnen verschillende 4D-animaties naadloos worden gecombineerd, zoals we demonstreren. AYG opent veelbelovende mogelijkheden voor animatie, simulatie en digitale contentcreatie, evenals synthetische datageneratie.
In AI-onderzoek blijft de optimalisatie van Large Language Models (LLM's) een aanzienlijke uitdaging, cruciaal voor het bevorderen van praktische toepassingen en duurzaamheid in het veld. Voortbouwend op het baanbrekende werk van het lab van Professor Song Han aan het MIT, introduceert dit artikel een nieuwe aanpak voor het ontwikkelen van Mini-GPT's via contextueel snoeien. Onze methodologie snoeit op strategische wijze de computationele architectuur van traditionele LLM's, zoals Phi-1.5, met de focus op het behouden van kernfunctionaliteiten terwijl de modelgroottes drastisch worden verkleind. We passen de techniek toe op diverse en complexe datasets, waaronder Amerikaans recht, medische vraag en antwoord, Skyrim-dialogen, Engels-Taiwanees vertaling en economische artikelen. De resultaten benadrukken de efficiëntie en effectiviteit van contextueel snoeien, niet slechts als een theoretisch concept maar als een praktisch hulpmiddel bij het ontwikkelen van domeinspecifieke, resource-efficiënte LLM's. Contextueel snoeien is een veelbelovende methode voor het bouwen van domeinspecifieke LLM's, en dit onderzoek vormt een bouwsteen voor toekomstige ontwikkelingen met meer hardware-rekenkracht, verfijnde fine-tuning en kwantisering.
Dit artikel presenteert een uitgebreide studie over de rol van Classifier-Free Guidance (CFG) in tekstgeconditioneerde diffusiemodellen vanuit het perspectief van inferentie-efficiëntie. In het bijzonder versoepelen we de standaardkeuze om CFG in alle diffusiestappen toe te passen en zoeken we in plaats daarvan naar efficiënte begeleidingsbeleidsregels. We formuleren de ontdekking van dergelijke beleidsregels binnen het differentieerbare Neural Architecture Search-framework. Onze bevindingen suggereren dat de denoiseringsstappen die door CFG worden voorgesteld steeds meer overeenkomen met eenvoudige conditionele stappen, waardoor de extra neurale netwerkevaluatie van CFG overbodig wordt, vooral in de tweede helft van het denoiseringsproces. Op basis van dit inzicht stellen we "Adaptive Guidance" (AG) voor, een efficiënte variant van CFG, die netwerkevaluaties adaptief weglaat wanneer het denoiseringsproces convergentie vertoont. Onze experimenten tonen aan dat AG de beeldkwaliteit van CFG behoudt terwijl de rekenkosten met 25% worden verminderd. AG vormt dus een plug-and-play alternatief voor Guidance Distillation, waarbij 50% van de snelheidswinst van laatstgenoemde wordt bereikt, terwijl het trainingsvrij blijft en de capaciteit behoudt om negatieve prompts te verwerken. Ten slotte ontdekken we verdere redundanties van CFG in de eerste helft van het diffusieproces, waarbij we aantonen dat volledige neurale functie-evaluaties kunnen worden vervangen door eenvoudige affiene transformaties van eerdere schattingen van scores. Deze methode, genaamd LinearAG, biedt nog goedkopere inferentie ten koste van een afwijking van het basismodel. Onze bevindingen bieden inzichten in de efficiëntie van het conditionele denoiseringsproces die bijdragen aan een praktischer en snellere inzet van tekstgeconditioneerde diffusiemodellen.
Recente methoden voor het genereren van 3D-modellen uit één afbeelding maken vaak gebruik van Score Distillation Sampling (SDS). Ondanks de indrukwekkende resultaten zijn er meerdere tekortkomingen, waaronder inconsistentie tussen verschillende aanzichten, oververzadigde en overmatig gladde texturen, evenals een trage generatiesnelheid. Om deze tekortkomingen aan te pakken, presenteren we Repaint123 om de bias tussen verschillende aanzichten en de degradatie van texturen te verminderen en het generatieproces te versnellen. De kernidee is om de krachtige beeldgeneratiecapaciteit van het 2D-diffusiemodel te combineren met de textuurafstemmingsvaardigheid van de repainting-strategie om hoogwaardige, consistente afbeeldingen vanuit meerdere aanzichten te genereren. We stellen verder een zichtbaarheidsbewuste adaptieve repainting-sterkte voor overlappende regio's voor om de kwaliteit van de gegenereerde afbeeldingen tijdens het repainting-proces te verbeteren. De gegenereerde hoogwaardige en consistente afbeeldingen vanuit meerdere aanzichten maken het gebruik van een eenvoudig Mean Square Error (MSE)-verlies mogelijk voor snelle 3D-contentgeneratie. We voeren uitgebreide experimenten uit en tonen aan dat onze methode superieur is in het genereren van hoogwaardige 3D-content met consistentie tussen aanzichten en fijne texturen in 2 minuten vanaf nul. De code is beschikbaar op https://github.com/junwuzhang19/repaint123.
Neurale 3D-scène-representaties hebben groot potentieel getoond voor 3D-reconstructie vanuit 2D-beelden. Het reconstrueren van real-world opnames van complexe scènes blijft echter een uitdaging. Bestaande generieke 3D-reconstructiemethoden hebben vaak moeite met het weergeven van fijne geometrische details en modelleren reflecterende oppervlakken van grootschalige scènes niet adequaat. Technieken die zich expliciet richten op reflecterende oppervlakken kunnen complexe en gedetailleerde reflecties modelleren door betere reflectie-parameterisaties te benutten. Wij merken echter op dat deze methoden vaak niet robuust zijn in realistische, onbegrensde scenario's waar zowel niet-reflecterende als reflecterende componenten aanwezig zijn. In dit werk stellen we UniSDF voor, een algemene 3D-reconstructiemethode die grote, complexe scènes met reflecties kan reconstrueren. We onderzoeken zowel opzicht-gebaseerde als reflectie-gebaseerde kleurvoorspellingsparameterisatietechnieken en ontdekken dat het expliciet combineren van deze representaties in 3D-ruimte het mogelijk maakt om oppervlakken te reconstrueren die geometrisch nauwkeuriger zijn, vooral voor reflecterende oppervlakken. We combineren deze representatie verder met een multi-resolutie rasterbackbone die op een grof-naar-fijne manier wordt getraind, wat snellere reconstructies mogelijk maakt dan eerdere methoden. Uitgebreide experimenten op objectniveau-datasets zoals DTU en Shiny Blender, evenals onbegrensde datasets zoals Mip-NeRF 360 en Ref-NeRF real, tonen aan dat onze methode in staat is om complexe, grootschalige scènes met fijne details en reflecterende oppervlakken robuust te reconstrueren. Bezoek onze projectpagina op https://fangjinhuawang.github.io/UniSDF.
Neurale stralingsvelden hebben opmerkelijke prestaties geleverd bij het modelleren van het uiterlijk van 3D-scènes. Bestaande benaderingen hebben echter nog steeds moeite met het weergaveafhankelijke uiterlijk van glanzende oppervlakken, vooral onder complexe verlichting in binnenomgevingen. In tegenstelling tot bestaande methoden, die doorgaans uitgaan van verre verlichting zoals een omgevingskaart, stellen wij een leerbare Gaussische directionele codering voor om de weergaveafhankelijke effecten onder nabije-veld verlichtingsomstandigheden beter te modelleren. Belangrijk is dat onze nieuwe directionele codering de ruimtelijk variërende aard van nabije-veld verlichting vastlegt en het gedrag van voorgefilterde omgevingskaarten nabootst. Hierdoor maakt het een efficiënte evaluatie mogelijk van vooraf geconvolueerde speculaire kleur op elke 3D-locatie met variërende ruwheidscoëfficiënten. We introduceren verder een data-gestuurde geometrie-prior die helpt bij het verminderen van de vorm-stralingsambiguïteit in reflectiemodellering. We tonen aan dat onze Gaussische directionele codering en geometrie-prior het modelleren van uitdagende speculaire reflecties in neurale stralingsvelden aanzienlijk verbeteren, wat helpt om het uiterlijk te ontbinden in meer fysisch betekenisvolle componenten.
Het leren van voorspellende modellen uit observaties met behulp van diepe neurale netwerken (DNN's) is een veelbelovende nieuwe aanpak voor veel real-world plannings- en controleproblemen. Echter, gangbare DNN's zijn te ongestructureerd voor effectieve planning, en huidige controlemethoden vertrouwen doorgaans op uitgebreide steekproeven of lokale gradiëntdaling. In dit artikel stellen we een nieuw raamwerk voor voor geïntegreerd model leren en voorspellende controle dat geschikt is voor efficiënte optimalisatie-algoritmen. Specifiek beginnen we met een ReLU-neuraal model van de systeemdynamica en, met minimale verliezen in voorspellingsnauwkeurigheid, sparsifiëren we het geleidelijk door overbodige neuronen te verwijderen. Dit discrete sparsificatieproces wordt benaderd als een continu probleem, waardoor een end-to-end optimalisatie van zowel de modelarchitectuur als de gewichtsparameters mogelijk wordt. Het gesparsificeerde model wordt vervolgens gebruikt door een mixed-integer voorspellende controller, die de neuronactivaties representeert als binaire variabelen en efficiënte branch-and-bound algoritmen toepast. Ons raamwerk is toepasbaar op een breed scala aan DNN's, van eenvoudige meerlaagse perceptrons tot complexe grafische neurale dynamica. Het kan efficiënt omgaan met taken die ingewikkelde contactdynamica omvatten, zoals het duwen van objecten, het sorteren van samengestelde objecten en het manipuleren van vervormbare objecten. Numerieke en hardware-experimenten tonen aan dat, ondanks de agressieve sparsificatie, ons raamwerk betere gesloten-lus prestaties kan leveren dan bestaande state-of-the-art methoden.
Biomedische beeldvormingsdatasets zijn vaak klein en bevooroordeeld, wat betekent dat de prestaties van voorspellende modellen in de praktijk aanzienlijk lager kunnen zijn dan verwacht op basis van interne tests. Dit werk stelt voor om generatieve beeldbewerking te gebruiken om datasetshifts te simuleren en faalmodi van biomedische beeldherkenningsmodellen te diagnosticeren; dit kan worden toegepast vóór implementatie om de gereedheid te beoordelen, wat mogelijk kosten en patiëntschade kan verminderen. Bestaande bewerkingsmethoden kunnen ongewenste veranderingen veroorzaken, waarbij spurious correlations worden geleerd door het gelijktijdig optreden van ziekte en behandelingsinterventies, wat de praktische toepasbaarheid beperkt. Om dit aan te pakken, trainen we een tekst-naar-beeld diffusiemodel op meerdere thoraxfoto-datasets en introduceren we een nieuwe bewerkingsmethode, RadEdit, die meerdere maskers gebruikt, indien aanwezig, om veranderingen te beperken en consistentie in de bewerkte afbeeldingen te waarborgen. We beschouwen drie soorten datasetshifts: acquisitieshift, manifestatieshift en populatieshift, en demonstreren dat onze aanpak falen kan diagnosticeren en de robuustheid van modellen kan kwantificeren zonder aanvullende dataverzameling, wat een aanvulling vormt op meer kwalitatieve tools voor uitlegbare AI.