Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We introduceren Voyager, de eerste LLM-gestuurde belichaamde levenslange leeragent in Minecraft die continu de wereld verkent, diverse vaardigheden verwerft en nieuwe ontdekkingen doet zonder menselijke tussenkomst. Voyager bestaat uit drie belangrijke componenten: 1) een automatisch curriculum dat exploratie maximaliseert, 2) een steeds groeiende vaardigheidsbibliotheek van uitvoerbare code voor het opslaan en ophalen van complexe gedragingen, en 3) een nieuw iteratief promptmechanisme dat omgevingsfeedback, uitvoeringsfouten en zelfverificatie integreert voor programmaverbetering. Voyager interageert met GPT-4 via blackbox-query's, waardoor het afstemmen van modelparameters overbodig wordt. De vaardigheden die Voyager ontwikkelt, zijn tijdelijk uitgebreid, interpreteerbaar en compositioneel, wat de mogelijkheden van de agent snel vergroot en catastrofaal vergeten vermindert. Empirisch toont Voyager een sterke levenslange leerbaarheid in context en vertoont het uitzonderlijke vaardigheid in het spelen van Minecraft. Het verkrijgt 3,3x meer unieke items, legt 2,3x langere afstanden af en ontgrendelt belangrijke technologietak-mijlpalen tot 15,3x sneller dan eerdere state-of-the-art methoden. Voyager is in staat om de geleerde vaardigheidsbibliotheek te gebruiken in een nieuwe Minecraft-wereld om nieuwe taken vanaf nul op te lossen, terwijl andere technieken moeite hebben met generaliseren. We maken onze volledige codebase en prompts openbaar op https://voyager.minedojo.org/.
Score distillation sampling (SDS) heeft veelbelovende resultaten getoond in tekst-naar-3D-generatie door het distilleren van vooraf getrainde grootschalige tekst-naar-beeld diffusiemodellen, maar lijdt onder problemen zoals oververzadiging, overmatige gladheid en lage diversiteit. In dit werk stellen we voor om de 3D-parameter te modelleren als een willekeurige variabele in plaats van een constante zoals in SDS, en introduceren we variational score distillation (VSD), een principieel op deeltjes gebaseerd variatieraamwerk om de bovengenoemde problemen in tekst-naar-3D-generatie te verklaren en aan te pakken. We laten zien dat SDS een speciaal geval is van VSD en leidt tot slechte samples bij zowel kleine als grote CFG-gewichten. In vergelijking werkt VSD goed met verschillende CFG-gewichten als ancestrale sampling van diffusiemodellen en verbetert het tegelijkertijd de diversiteit en samplekwaliteit met een gemeenschappelijk CFG-gewicht (d.w.z. 7,5). We presenteren verder diverse verbeteringen in het ontwerpruimte voor tekst-naar-3D, zoals het distillatieschema en dichtheidsinitialisatie, die orthogonaal zijn aan het distillatiealgoritme maar nog niet goed zijn onderzocht. Onze algehele aanpak, genaamd ProlificDreamer, kan hoogrenderende resoluties (d.w.z. 512×512) en hoogwaardige NeRF genereren met rijke structuren en complexe effecten (bijv. rook en druppels). Bovendien zijn meshes, geïnitialiseerd vanuit NeRF en verfijnd door VSD, uiterst gedetailleerd en foto-realistisch. Projectpagina: https://ml.cs.tsinghua.edu.cn/prolificdreamer/
Een opkomende methode om goedkoop een zwakker taalmodel te verbeteren, is het finetunen ervan op uitvoer van een sterker model, zoals een propriëtair systeem zoals ChatGPT (bijv. Alpaca, Self-Instruct en anderen). Deze benadering probeert op goedkope wijze de mogelijkheden van het propriëtaire model na te bootsen met een zwakker open-source model. In dit werk analyseren we deze benadering kritisch. We finetunen eerst een reeks taalmodellen die ChatGPT imiteren, waarbij we variëren in de grootte van het basismodel (1,5B–13B), gegevensbronnen en de hoeveelheid imitatiedata (0,3M–150M tokens). Vervolgens evalueren we de modellen met behulp van crowdbeoordelaars en standaard NLP-benchmarks. Aanvankelijk waren we verrast door de uitvoerkwaliteit van onze imitatiemodellen – ze lijken veel beter in het volgen van instructies, en crowdwerkers beoordelen hun uitvoer als concurrerend met ChatGPT. Wanneer we echter meer gerichte automatische evaluaties uitvoeren, ontdekken we dat imitatiemodellen weinig tot geen van de kloof tussen het basismodel en ChatGPT overbruggen bij taken die niet sterk ondersteund worden in de imitatiedata. We laten zien dat deze prestatieverschillen menselijke beoordelaars kunnen ontgaan omdat imitatiemodellen bedreven zijn in het nabootsen van de stijl van ChatGPT, maar niet van de feitelijke inhoud. Over het geheel concluderen we dat modelimitatie een valse belofte is: er bestaat een aanzienlijk capaciteitsverschil tussen open en gesloten taalmodellen dat, met de huidige methoden, alleen kan worden overbrugd met een onhandelbare hoeveelheid imitatiedata of door gebruik te maken van capabelere basismodellen. Op hun beurt stellen we dat de meest effectieve actie voor het verbeteren van open-source modellen is om de moeilijke uitdaging aan te gaan van het ontwikkelen van betere basismodellen, in plaats van de kortste weg te nemen door propriëtaire systemen te imiteren.
Uitzonderlijke tekst-naar-beeld (T2I) generatieresultaten van Stable Diffusion-modellen (SDM's) gaan gepaard met aanzienlijke rekenkundige eisen. Om dit probleem op te lossen, heeft recent onderzoek naar efficiënte SDM's prioriteit gegeven aan het verminderen van het aantal samplingstappen en het gebruik van netwerkquantisatie. In aanvulling op deze richtingen, benadrukt deze studie de kracht van klassieke architectuurcompressie voor algemene T2I-synthese door het introduceren van block-removed knowledge-distilled SDM's (BK-SDM's). We verwijderen verschillende residu- en aandachtblokken uit de U-Net van SDM's, wat resulteert in een reductie van meer dan 30% in het aantal parameters, MACs per samplingstap en latentie. We voeren distillatiegebaseerde voorafgaande training uit met slechts 0,22 miljoen LAION-paren (minder dan 0,1% van de volledige trainingsparen) op een enkele A100 GPU. Ondanks de beperkte trainingsmiddelen, kunnen onze compacte modellen het originele SDM imiteren door te profiteren van overgedragen kennis en behalen ze competitieve resultaten tegenover grotere modellen met miljarden parameters op de zero-shot MS-COCO benchmark. Bovendien demonstreren we de toepasbaarheid van onze lichtgewicht vooraf getrainde modellen in gepersonaliseerde generatie met DreamBooth-finetuning.
Text-to-image diffusiemodellen kunnen diverse, hoogwaardige afbeeldingen genereren op basis van door gebruikers aangeleverde tekstprompts. Recent onderzoek heeft deze modellen uitgebreid om tekstgeleide beeldbewerking te ondersteunen. Hoewel tekstgeleiding een intuïtieve bewerkingsinterface voor gebruikers is, slaagt het vaak niet om het precieze concept dat gebruikers willen overbrengen te waarborgen. Om dit probleem aan te pakken, stellen we Custom-Edit voor, waarin we (i) een diffusiemodel aanpassen met een paar referentieafbeeldingen en vervolgens (ii) tekstgeleide bewerking uitvoeren. Onze belangrijkste ontdekking is dat het aanpassen van alleen taalrelevante parameters met uitgebreide prompts de referentieovereenkomst aanzienlijk verbetert, terwijl de bronovereenkomst behouden blijft. Bovendien bieden we ons recept voor elk aanpassings- en bewerkingsproces. We vergelijken populaire aanpassingsmethoden en valideren onze bevindingen op twee bewerkingsmethoden met behulp van verschillende datasets.
Recente vooruitgang in muziekgeneratie is aanzienlijk gevorderd door de state-of-the-art MusicLM, die een hiërarchie van drie taalmodelen (LMs) omvat, respectievelijk voor semantische, grove akoestische en fijne akoestische modellering. Echter, het genereren van samples met MusicLM vereist het sequentieel verwerken van deze LMs om de fijnkorrelige akoestische tokens te verkrijgen, wat het rekenkundig duur maakt en ongeschikt voor real-time generatie. Efficiënte muziekgeneratie met een kwaliteit die vergelijkbaar is met MusicLM blijft een aanzienlijke uitdaging. In dit artikel presenteren we MeLoDy (M voor muziek; L voor LM; D voor diffusie), een LM-geleid diffusiemodel dat muziekaudio van state-of-the-art kwaliteit genereert en tegelijkertijd 95,7% of 99,6% van de forward passes in MusicLM reduceert, respectievelijk voor het genereren van 10 seconden of 30 seconden muziek. MeLoDy erft het hoogste niveau LM van MusicLM voor semantische modellering, en past een nieuw dual-path diffusie (DPD) model en een audio VAE-GAN toe om de conditionele semantische tokens efficiënt te decoderen naar golfvorm. DPD wordt voorgesteld om zowel de grove als fijne akoestiek tegelijkertijd te modelleren door de semantische informatie effectief in segmenten van latents te integreren via cross-attention bij elke denoising stap. Onze experimentele resultaten suggereren de superioriteit van MeLoDy, niet alleen in zijn praktische voordelen op het gebied van sample snelheid en oneindig voortzetbare generatie, maar ook in zijn state-of-the-art muzikaliteit, audiokwaliteit en tekstcorrelatie. Onze samples zijn beschikbaar op https://Efficient-MeLoDy.github.io/.
Text-to-image diffusiemodellen zijn nu in staat om afbeeldingen te genereren die vaak niet te onderscheiden zijn van echte afbeeldingen. Om dergelijke afbeeldingen te genereren, moeten deze modellen de semantiek begrijpen van de objecten die ze moeten genereren. In dit werk tonen we aan dat men, zonder enige training, deze semantische kennis binnen diffusiemodellen kan benutten om semantische correspondenties te vinden — locaties in meerdere afbeeldingen die dezelfde semantische betekenis hebben. Specifiek optimaliseren we, gegeven een afbeelding, de prompt-embeddings van deze modellen voor maximale aandacht op de regio's van belang. Deze geoptimaliseerde embeddings vangen semantische informatie over de locatie op, die vervolgens kan worden overgedragen naar een andere afbeelding. Hiermee behalen we resultaten die vergelijkbaar zijn met de sterk gesuperviseerde state-of-the-art op de PF-Willow dataset en die aanzienlijk beter presteren (20,9% relatief voor de SPair-71k dataset) dan bestaande zwak of ongesuperviseerde methoden op de PF-Willow, CUB-200 en SPair-71k datasets.
We presenteren Manifold Diffusion Fields (MDF), een benadering om generatieve modellen te leren van continue functies gedefinieerd over Riemann-variëteiten. Door inzichten uit spectrale geometrie-analyse te benutten, definiëren we een intrinsiek coördinatensysteem op de variëteit via de eigenfuncties van de Laplace-Beltrami-operator. MDF representeert functies met behulp van een expliciete parametrisering gevormd door een set van meerdere invoer-uitvoerparen. Onze benadering maakt het mogelijk om continue functies op variëteiten te bemonsteren en is invariant ten opzichte van rigide en isometrische transformaties van de variëteit. Empirische resultaten op verschillende datasets en variëteiten tonen aan dat MDF distributies van dergelijke functies kan vastleggen met betere diversiteit en nauwkeurigheid dan eerdere benaderingen.