Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Het consistentiemodel (CM) heeft recentelijk aanzienlijke vooruitgang geboekt in het versnellen van de generatie van diffusiemodellen. De toepassing ervan op hoogwaardige, tekstgeconditioneerde beeldgeneratie in de latente ruimte (ook wel LCM genoemd) blijft echter onbevredigend. In dit artikel identificeren we drie belangrijke tekortkomingen in het huidige ontwerp van LCM. We onderzoeken de redenen achter deze beperkingen en stellen het Gefaseerd Consistentiemodel (PCM) voor, dat de ontwerpruimte verbreedt en alle geïdentificeerde beperkingen aanpakt. Onze evaluaties tonen aan dat PCM aanzienlijk beter presteert dan LCM in generatie-instellingen van 1–16 stappen. Hoewel PCM specifiek is ontworpen voor meerstapsverfijning, behaalt het zelfs superieure of vergelijkbare resultaten voor 1-stapsgeneratie in vergelijking met eerder state-of-the-art methoden die specifiek voor 1-stapsgeneratie zijn ontworpen. Bovendien laten we zien dat de methodologie van PCM veelzijdig is en toepasbaar op videogeneratie, waardoor we de state-of-the-art tekst-naar-videogenerator met weinig stappen kunnen trainen. Meer details zijn beschikbaar op https://g-u-n.github.io/projects/pcm/.
Naarmate Deep Neural Networks (DNN's) in omvang en complexiteit toenemen, overschrijden ze vaak het geheugencapaciteit van een enkele accelerator, wat het verdelen van modelparameters over meerdere accelerators noodzakelijk maakt. Pipeline-parallelisme is een veelgebruikte strategie voor het verdelen van grote DNN's tijdens training. Huidige implementaties van pipeline-parallelisme worden echter onbedoeld beperkt door de automatische differentiatietools die door ML-frameworks worden aangeboden. Dit artikel introduceert 2-staps backpropagatie (2BP). Door de backward propagation-stap op te splitsen in twee afzonderlijke fasen, kunnen we de inactieve rekentijd verminderen. We hebben 2BP getest op verschillende modelarchitecturen en pipelining-schema's, waarbij in alle gevallen een toename in doorvoersnelheid werd bereikt. Met 2BP konden we een 1,70x hogere doorvoersnelheid bereiken in vergelijking met traditionele methoden bij het trainen van een LLaMa-achtige transformer met 7 miljard parameters verdeeld over 4 GPU's.
Recente ontwikkelingen in tekst-naar-muziekbewerking, waarbij tekstquery's worden gebruikt om muziek aan te passen (bijvoorbeeld door de stijl te veranderen of instrumentele componenten aan te passen), bieden unieke uitdagingen en mogelijkheden voor AI-ondersteunde muziekcreatie. Eerdere benaderingen in dit domein werden beperkt door de noodzaak om specifieke bewerkingsmodellen vanaf nul te trainen, wat zowel resource-intensief als inefficiënt is; ander onderzoek maakt gebruik van grote taalmodellen om bewerkte muziek te voorspellen, wat resulteert in onnauwkeurige audioreconstructie. Om de sterke punten te combineren en deze beperkingen aan te pakken, introduceren we Instruct-MusicGen, een nieuwe aanpak die een vooraf getraind MusicGen-model fijnafstelt om efficiënt bewerkingsinstructies te volgen, zoals het toevoegen, verwijderen of scheiden van stems. Onze aanpak omvat een aanpassing van de oorspronkelijke MusicGen-architectuur door het integreren van een tekstfusiemodule en een audiofusiemodule, waardoor het model instructieteksten en audio-inputs gelijktijdig kan verwerken en de gewenste bewerkte muziek kan opleveren. Opmerkelijk is dat Instruct-MusicGen slechts 8% nieuwe parameters introduceert ten opzichte van het oorspronkelijke MusicGen-model en slechts 5K stappen traint, maar toch superieure prestaties behaalt in alle taken vergeleken met bestaande baseline-modellen, en prestaties laat zien die vergelijkbaar zijn met modellen die voor specifieke taken zijn getraind. Deze vooruitgang verbetert niet alleen de efficiëntie van tekst-naar-muziekbewerking, maar breidt ook de toepasbaarheid van muziektaalmodellen uit in dynamische muziekproductieomgevingen.
Yuan 2.0-M32, met een vergelijkbare basisarchitectuur als Yuan-2.0 2B, maakt gebruik van een mixture-of-experts-architectuur met 32 experts, waarvan 2 experts actief zijn. Een nieuw router-netwerk, Attention Router, wordt voorgesteld en geïmplementeerd voor een efficiëntere selectie van experts, wat de nauwkeurigheid met 3,8% verbetert in vergelijking met het model met een klassiek router-netwerk. Yuan 2.0-M32 is getraind met 2000B tokens vanaf nul, en het rekenverbruik tijdens de training bedraagt slechts 9,25% van een dicht model op dezelfde parameterschaal. Yuan 2.0-M32 toont een competitieve vaardigheid op het gebied van coderen, wiskunde en diverse expertisegebieden, met slechts 3,7B actieve parameters van de in totaal 40B, en 7,4 GFlops voorwaartse berekening per token, wat beide slechts 1/19 is van Llama3-70B. Yuan 2.0-M32 overtreft Llama3-70B op de MATH- en ARC-Challenge-benchmarks, met een nauwkeurigheid van respectievelijk 55,89 en 95,8. De modellen en broncodes van Yuan 2.0-M32 zijn vrijgegeven op Github.
De mogelijkheden van moderne grote taalmodellen (LLMs) bij het oplossen van taken zoals natuurlijke taalverwerking, complex redeneren, sentimentanalyse en andere taken zijn buitengewoon, wat heeft geleid tot hun uitgebreide adoptie. Helaas gaan deze mogelijkheden gepaard met zeer hoge geheugen- en rekenkosten, wat het gebruik van LLMs op de meeste hardwareplatforms verhindert. Om dit te verlichten, stellen we een effectieve methode voor om Pareto-optimale netwerkarchitecturen te vinden op basis van LLaMA2-7B met behulp van one-shot NAS. In het bijzonder fine-tunen we LLaMA2-7B slechts één keer en passen vervolgens een genetisch algoritme-gebaseerde zoektocht toe om kleinere, minder rekenintensieve netwerkarchitecturen te vinden. We laten zien dat, voor bepaalde standaard benchmarktaken, het vooraf getrainde LLaMA2-7B-netwerk onnodig groot en complex is. Meer specifiek demonstreren we een 1,5x reductie in modelgrootte en een 1,3x versnelling in doorvoersnelheid voor bepaalde taken met een verwaarloosbaar verlies in nauwkeurigheid. Naast het vinden van kleinere, beter presterende netwerkarchitecturen, doet onze methode dit effectiever en efficiënter dan bepaalde pruning- of sparsificatietechnieken. Tot slot laten we zien hoe kwantisering complementair is aan onze methode en dat de grootte en complexiteit van de netwerken die we vinden verder kunnen worden verminderd met behulp van kwantisering. Wij geloven dat ons werk een manier biedt om automatisch LLMs te creëren die kunnen worden gebruikt op goedkopere en meer beschikbare hardwareplatforms.
Het reconstrueren van 4D-scènes uit video-invoer is een cruciale maar uitdagende taak. Conventionele methoden baseren zich meestal op de aannames van multi-view video-invoer, bekende cameraparameters of statische scènes, die allemaal typisch afwezig zijn in realistische scenario's. In dit artikel versoepelen we al deze beperkingen en pakken we een zeer ambitieuze maar praktische taak aan, die we AnyV4D hebben genoemd: we gaan ervan uit dat slechts één monoscopische video beschikbaar is zonder enige cameraparameters als invoer, en we streven ernaar om de dynamische 4D-wereld samen met de cameraposities te herstellen. Hiertoe introduceren we GFlow, een nieuw framework dat alleen 2D-priors (diepte en optische flow) gebruikt om een video (3D) om te zetten in een expliciete 4D-representatie, wat een flow van Gaussische splatting door ruimte en tijd inhoudt. GFlow clustert eerst de scène in stilstaande en bewegende delen, en past vervolgens een sequentiële optimalisatieproces toe dat cameraposities en de dynamiek van 3D Gaussische punten optimaliseert op basis van 2D-priors en scèneclustering, waardoor de trouw tussen naburige punten en vloeiende beweging tussen frames wordt gewaarborgd. Omdat dynamische scènes altijd nieuwe inhoud introduceren, stellen we ook een nieuwe pixelgewijze verdichtingsstrategie voor Gaussische punten voor om nieuwe visuele inhoud te integreren. Bovendien gaat GFlow verder dan de grenzen van louter 4D-reconstructie; het maakt ook het volgen van willekeurige punten tussen frames mogelijk zonder de noodzaak van voorafgaande training en segmenteert bewegende objecten uit de scène op een onbewaakte manier. Daarnaast kunnen de cameraposities van elk frame worden afgeleid uit GFlow, wat het mogelijk maakt om nieuwe weergaven van een videoscène te renderen door de camerapositie te veranderen. Door gebruik te maken van de expliciete representatie, kunnen we gemakkelijk scène- of objectniveau-bewerkingen uitvoeren zoals gewenst, wat de veelzijdigheid en kracht ervan onderstreept. Bezoek onze projectwebsite op: https://littlepure2333.github.io/GFlow
Grote taalmmodellen (LLMs) zijn recent naar voren gekomen als krachtige tools voor het aanpakken van veel taalverwerkingstaken. Ondanks hun succes zijn het trainen en finetunen van deze modellen nog steeds veel te reken- en geheugenintensief. In dit artikel identificeren en karakteriseren we de belangrijke componenten die nodig zijn voor effectieve modelconvergentie met behulp van gradient descent. Hierbij ontdekken we dat de tussenliggende activaties die worden gebruikt voor backpropagation overmatig kunnen worden gecomprimeerd zonder dat dit ten koste gaat van de prestaties. Dit resultaat leidt ons naar een goedkope en geheugenefficiënte algoritme voor zowel het finetunen als het pretrainen van LLMs. Het voorgestelde algoritme verdeelt eenvoudigweg de tokens in kleinere sub-tokens voordat ze tijdens de forward pass worden geprojecteerd op een vaste 1-dimensionale deelruimte. Deze kenmerken worden vervolgens grof gereconstrueerd tijdens de backward pass om de update-regels te implementeren. We bevestigen de effectiviteit van ons algoritme als aanvulling op veel state-of-the-art PEFT-methoden op de VTAB-1k finetuning benchmark. Bovendien overtreffen we QLoRA voor het finetunen van LLaMA en laten we competitieve prestaties zien tegenover andere geheugenefficiënte pretrainingsmethoden op de grootschalige C4-dataset.
Scènebeeldbewerking is cruciaal voor entertainment, fotografie en reclameontwerp. Bestaande methoden richten zich uitsluitend op het bewerken van individuele 2D-objecten of globale 3D-scènes. Dit resulteert in een gebrek aan een uniforme aanpak om scènes effectief te controleren en te manipuleren op 3D-niveau met verschillende niveaus van granulariteit. In dit werk stellen we 3DitScene voor, een nieuw en uniform raamwerk voor scènebewerking dat gebruikmaakt van taalgeleide ontrafelde Gaussian Splatting, waardoor naadloze bewerking van 2D naar 3D mogelijk wordt en precieze controle over scènesamenstelling en individuele objecten wordt geboden. We integreren eerst 3D-Gaussiaanse verdelingen die worden verfijnd door generatieve prioriteiten en optimalisatietechnieken. Taalkenmerken van CLIP introduceren vervolgens semantiek in 3D-geometrie voor objectontrafeling. Met de ontrafelde Gaussiaanse verdelingen maakt 3DitScene manipulatie mogelijk op zowel globaal als individueel niveau, wat creatieve expressie revolutioneert en controle over scènes en objecten versterkt. Experimentele resultaten tonen de effectiviteit en veelzijdigheid van 3DitScene in scènebeeldbewerking aan. Code en een online demo zijn te vinden op onze projecthomepage: https://zqh0253.github.io/3DitScene/.