Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Een indrukwekkende emergentie-capaciteit van grote taalmodellen (LLM's) is het genereren van code, waaronder Structured Query Language (SQL) voor databases. Voor de taak van het omzetten van natuurlijke taal naar SQL-query's, Text-to-SQL, is de aanpassing van LLM's van cruciaal belang, zowel in in-context learning als fine-tuning settings, afhankelijk van de hoeveelheid aanpassingsdata die wordt gebruikt. In dit artikel stellen we een LLM-gebaseerd Text-to-SQL model voor, SQL-PaLM, dat voortbouwt op PaLM-2 en de state-of-the-art in beide settings naar een hoger niveau tilt. Few-shot SQL-PaLM is gebaseerd op een execution-based self-consistency prompting benadering die is ontworpen voor Text-to-SQL, en behaalt 77,3% in test-suite nauwkeurigheid op Spider, wat voor zover wij weten de eerste keer is dat het de vorige state-of-the-art met fine-tuning aanzienlijk overtreft, met een marge van 4%. Bovendien tonen we aan dat de fine-tuned SQL-PaLM dit nog verder verbetert met nog eens 1%. Om SQL-PaLM toe te passen in real-world scenario's evalueren we verder de robuustheid ervan op andere uitdagende varianten van Spider en demonstreren we de superieure generalisatiecapaciteit van SQL-PaLM. Daarnaast tonen we via uitgebreide casestudies de indrukwekkende intelligente capaciteiten en diverse succesfactoren van LLM-gebaseerde Text-to-SQL aan.
Text-to-image diffusiemodellen kunnen indrukwekkende afbeeldingen genereren op basis van natuurlijke taalomschrijvingen die wedijveren met het werk van professionele kunstenaars en fotografen. Deze modellen zijn echter groot, met complexe netwerkarchitecturen en tientallen denoiseringsiteraties, waardoor ze rekenintensief en traag zijn om uit te voeren. Als gevolg hiervan zijn high-end GPU's en cloudgebaseerde inferentie nodig om diffusiemodellen op schaal te draaien. Dit is kostbaar en heeft privacy-implicaties, vooral wanneer gebruikersgegevens naar een derde partij worden gestuurd. Om deze uitdagingen te overwinnen, presenteren we een generieke aanpak die voor het eerst het mogelijk maakt om text-to-image diffusiemodellen op mobiele apparaten uit te voeren in minder dan 2 seconden. We bereiken dit door een efficiënte netwerkarchitectuur te introduceren en stapdistillatie te verbeteren. Specifiek stellen we een efficiënte UNet voor door de redundantie van het oorspronkelijke model te identificeren en de berekening van de beelddecoder te verminderen via datadistillatie. Verder verbeteren we de stapdistillatie door trainingsstrategieën te verkennen en regularisatie te introduceren vanuit classifier-free guidance. Onze uitgebreide experimenten op MS-COCO laten zien dat ons model met 8 denoiseringsstappen betere FID- en CLIP-scores behaalt dan Stable Diffusion v1.5 met 50 stappen. Ons werk democratiseert contentcreatie door krachtige text-to-image diffusiemodellen binnen handbereik van gebruikers te brengen.
We introduceren Wuerstchen, een nieuwe techniek voor tekst-naar-beeld-synthese die concurrerende prestaties combineert met ongekende kosteneffectiviteit en eenvoud van training op beperkte hardware. Gebaseerd op recente vooruitgang in machine learning, vermindert onze aanpak, die gebruikmaakt van latente diffusiestrategieën bij sterke compressiepercentages van latente beelden, de rekenlast aanzienlijk, die doorgaans geassocieerd wordt met state-of-the-art modellen, terwijl de kwaliteit van de gegenereerde beelden behouden blijft, zo niet verbeterd. Wuerstchen behaalt opmerkelijke snelheidsverbeteringen tijdens inferentie, waardoor real-time toepassingen haalbarder worden. Een van de belangrijkste voordelen van onze methode ligt in de bescheiden trainingsvereisten van slechts 9.200 GPU-uren, waardoor de gebruikelijke kosten aanzienlijk worden verlaagd zonder in te leveren op de eindprestaties. In een vergelijking met de state-of-the-art bleek de aanpak sterk concurrerend te zijn. Dit artikel opent de deur naar een nieuwe onderzoekslijn die zowel prestaties als computationale toegankelijkheid prioriteert, en zo het gebruik van geavanceerde AI-technologieën democratiseert. Met Wuerstchen demonstreren we een overtuigende stap voorwaarts in het domein van tekst-naar-beeld-synthese, en bieden we een innovatieve weg om in toekomstig onderzoek te verkennen.
We presenteren GenMM, een generatief model dat zoveel mogelijk diverse bewegingen "ontgint" uit één of enkele voorbeeldsequenties. In schril contrast met bestaande data-gedreven methoden, die doorgaans lange offline trainingstijden vereisen, gevoelig zijn voor visuele artefacten, en vaak falen bij grote en complexe skeletten, erft GenMM de training-vrije aard en de superieure kwaliteit van de bekende Motion Matching-methode. GenMM kan binnen een fractie van een seconde een hoogwaardige beweging synthetiseren, zelfs bij zeer complexe en grote skeletstructuren. De kern van ons generatieve raamwerk is de generatieve motion matching-module, die bidirectionele visuele gelijkenis gebruikt als een generatieve kostenfunctie voor motion matching, en opereert in een meerfasen raamwerk om een willekeurige gok progressief te verfijnen met behulp van voorbeeldbewegingsmatches. Naast diverse bewegingsgeneratie, tonen we de veelzijdigheid van ons generatieve raamwerk door het uit te breiden naar een aantal scenario's die niet mogelijk zijn met motion matching alleen, waaronder bewegingscompletering, sleutelframe-geleide generatie, oneindig loopen en bewegingsherassemblage. Code en data voor dit artikel zijn te vinden op https://wyysf-98.github.io/GenMM/.
Moderne deep learning-benaderingen transformeren invoergegevens meestal in een modaliteitsspecifieke vorm. De meest gebruikelijke deep learning-benadering voor beeldclassificatie decodeert bijvoorbeeld beeldbestandsbytes naar een RGB-tensor die vervolgens in een neuraal netwerk wordt ingevoerd. In plaats daarvan onderzoeken wij het uitvoeren van classificatie direct op bestandsbytes, zonder de noodzaak om bestanden te decoderen tijdens de inferentiefase. Het gebruik van bestandsbytes als modelinvoer maakt de ontwikkeling van modellen mogelijk die op meerdere invoermodaliteiten kunnen werken. Ons model, ByteFormer, behaalt een ImageNet Top-1 classificatie-accuraatheid van 77,33% wanneer het direct op TIFF-bestandsbytes wordt getraind en getest met een transformer-backbone met een configuratie vergelijkbaar met DeiT-Ti (72,2% accuraatheid bij gebruik van RGB-beelden). Zonder aanpassingen of hyperparameterafstemming behaalt ByteFormer een classificatie-accuraatheid van 95,42% bij het werken met WAV-bestanden uit de Speech Commands v2-dataset (vergeleken met de state-of-the-art accuraatheid van 98,7%). Daarnaast tonen wij aan dat ByteFormer toepassingen heeft in privacy-beschermende inferentie. ByteFormer is in staat om inferentie uit te voeren op bepaalde versluierde invoerrepresentaties zonder verlies van accuraatheid. Wij demonstreren ook de mogelijkheid van ByteFormer om inferentie uit te voeren met een hypothetische privacy-beschermende camera die het vormen van volledige beelden vermijdt door consequent 90% van de pixelkanalen te maskeren, terwijl nog steeds een accuraatheid van 71,35% op ImageNet wordt behaald. Onze code zal beschikbaar worden gesteld op https://github.com/apple/ml-cvnets/tree/main/examples/byteformer.
Het creëren van een levendige video vanuit een gebeurtenis of scenario in onze verbeelding is een werkelijk fascinerende ervaring. Recente vooruitgang in tekst-naar-video-synthese heeft het potentieel onthuld om dit te bereiken met alleen prompts. Hoewel tekst handig is om de algemene context van een scène over te brengen, kan het onvoldoende zijn om precies te controleren. In dit artikel onderzoeken we gepersonaliseerde videogeneratie door tekst te gebruiken als contextbeschrijving en bewegingsstructuur (bijvoorbeeld framegewijze diepte) als concrete richtlijn. Onze methode, genaamd Make-Your-Video, omvat gezamenlijk-voorwaardelijke videogeneratie met behulp van een Latent Diffusion Model dat vooraf is getraind voor stilstaande beeld-synthese en vervolgens wordt bevorderd voor videogeneratie met de introductie van temporele modules. Dit tweestaps-leerschema vermindert niet alleen de benodigde rekenbronnen, maar verbetert ook de prestaties door de rijke concepten die beschikbaar zijn in beelddatasets over te dragen naar videogeneratie. Bovendien gebruiken we een eenvoudige maar effectieve causale aandachtmaskerstrategie om langere videosynthese mogelijk te maken, wat de mogelijke kwaliteitsdegradatie effectief vermindert. Experimentele resultaten tonen de superioriteit van onze methode ten opzichte van bestaande baselines, met name wat betreft temporele coherentie en trouw aan de richtlijnen van gebruikers. Daarnaast maakt ons model verschillende intrigerende toepassingen mogelijk die potentieel aantonen voor praktisch gebruik.
Text-to-image diffusiemodellen hebben een ongeëvenaard vermogen getoond om hoogwaardige, diverse afbeeldingen te genereren vanuit een tekstueel concept (bijv. "een dokter", "liefde"). Het interne proces van het vertalen van tekst naar een rijke visuele representatie blijft echter een raadsel. In dit werk pakken we de uitdaging aan om conceptrepresentaties in text-to-image modellen te begrijpen door een invoertekstprompt te ontbinden in een kleine set interpreteerbare elementen. Dit wordt bereikt door het leren van een pseudo-token dat een spaarse gewogen combinatie is van tokens uit de vocabulaire van het model, met als doel de afbeeldingen die voor het gegeven concept worden gegenereerd te reconstrueren. Toegepast op het state-of-the-art Stable Diffusion-model onthult deze ontbinding niet-triviale en verrassende structuren in de representaties van concepten. Zo vinden we dat sommige concepten zoals "een president" of "een componist" worden gedomineerd door specifieke instanties (bijv. "Obama", "Biden") en hun interpolaties. Andere concepten, zoals "geluk", combineren geassocieerde termen die concreet ("familie", "lachen") of abstract ("vriendschap", "emotie") kunnen zijn. Naast het inzicht in de interne werking van Stable Diffusion, maakt onze methode ook toepassingen mogelijk zoals ontbinding van een enkele afbeelding naar tokens, detectie en mitigatie van bias, en semantische beeldmanipulatie. Onze code zal beschikbaar zijn op: https://hila-chefer.github.io/Conceptor/
We onderzoeken het potentieel van het leren van visuele representaties met behulp van synthetische afbeeldingen die gegenereerd zijn door tekst-naar-beeldmodellen. Dit is een natuurlijke vraag gezien de uitstekende prestaties van dergelijke modellen in het genereren van hoogwaardige afbeeldingen. We richten ons specifiek op Stable Diffusion, een van de toonaangevende open-source tekst-naar-beeldmodellen. We tonen aan dat (1) wanneer het generatieve model is geconfigureerd met een geschikte classifier-free guidance-schaal, het trainen van zelfgesuperviseerde methoden op synthetische afbeeldingen kan concurreren met of zelfs beter presteren dan de tegenhanger met echte afbeeldingen; (2) door de meerdere afbeeldingen die gegenereerd zijn vanuit dezelfde tekstprompt als positieve voorbeelden voor elkaar te behandelen, ontwikkelen we een multi-positieve contrastieve leermethode, die we StableRep noemen. Met uitsluitend synthetische afbeeldingen overtreffen de representaties die door StableRep zijn geleerd de prestaties van representaties die zijn geleerd door SimCLR en CLIP met behulp van dezelfde set tekstprompts en bijbehorende echte afbeeldingen, op grootschalige datasets. Wanneer we verder taalsupervisie toevoegen, bereikt StableRep getraind met 20 miljoen synthetische afbeeldingen een betere nauwkeurigheid dan CLIP getraind met 50 miljoen echte afbeeldingen.
Gepersonaliseerde tekst-naar-beeldgeneratie met behulp van diffusiemodellen is recent voorgesteld en heeft veel aandacht getrokken. Gegeven een handvol afbeeldingen die een nieuw concept bevatten (bijvoorbeeld een uniek speeltje), streven we ernaar om het generatieve model af te stemmen om fijne visuele details van het nieuwe concept vast te leggen en fotorealistische afbeeldingen te genereren die voldoen aan een tekstconditie. We presenteren een plug-in methode, genaamd ViCo, voor snelle en lichtgewicht gepersonaliseerde generatie. Specifiek stellen we een beeldattentiemodule voor om het diffusieproces te conditioneren op de visuele semantiek per patch. We introduceren een op aandacht gebaseerd objectmasker dat vrijwel zonder extra kosten uit de attentiemodule komt. Daarnaast ontwerpen we een eenvoudige regularisatie op basis van de intrinsieke eigenschappen van tekst-beeld-attentiekaarten om de veelvoorkomende degradatie door overfitting te verminderen. In tegenstelling tot veel bestaande modellen, past onze methode geen parameters van het oorspronkelijke diffusiemodel aan. Dit maakt een flexibelere en overdraagbaare modelimplementatie mogelijk. Met slechts een lichte parameter training (~6% van de diffusie U-Net), bereikt onze methode vergelijkbare of zelfs betere prestaties dan alle state-of-the-art modellen, zowel kwalitatief als kwantitatief.
Zelfgesuperviseerd leren (SSL) is recent naar voren gekomen als een veelbelovend paradigma voor het trainen van generaliseerbare modellen op grootschalige data in de domeinen van visie, tekst en spraak. Hoewel SSL effectief is gebleken voor spraak en audio, is de toepassing ervan op muziekaudio nog niet grondig onderzocht. Dit komt voornamelijk door de unieke uitdagingen die gepaard gaan met het modelleren van muzikale kennis, met name de tonale en toonhoogtegerelateerde kenmerken van muziek. Om dit onderzoeksgat te dichten, stellen we een akoestisch Music undERstanding model voor met grootschalig zelfgesuperviseerde training (MERT), dat gebruikmaakt van leraarmodellen om pseudo-labels te leveren in de akoestische voorbereiding in de stijl van gemaskeerde taalmodellering (MLM). In ons onderzoek hebben we een superieure combinatie van leraarmodellen geïdentificeerd, die conventionele benaderingen voor spraak en audio overtreft wat betreft prestaties. Deze combinatie omvat een akoestische leraar gebaseerd op Residual Vector Quantization - Variational AutoEncoder (RVQ-VAE) en een muzikale leraar gebaseerd op de Constant-Q Transform (CQT). Deze leraren begeleiden ons studentmodel, een BERT-stijl transformercodering, effectief om muziekaudio beter te modelleren. Daarnaast introduceren we een in-batch ruismengselaugmentatie om de robuustheid van de representatie te verbeteren. Verder verkennen we een breed scala aan instellingen om de instabiliteit in de voorbereiding van akoestische taalmodellen te overwinnen, waardoor ons ontworpen paradigma kan schalen van 95M naar 330M parameters. Experimentele resultaten tonen aan dat ons model kan generaliseren en goed presteert op 14 muziekbegriptaken en state-of-the-art (SOTA) overall scores behaalt. De code en modellen zijn online beschikbaar: https://github.com/yizhilll/MERT.
Er bestaat een grote vraag naar het aanpassen van vooraf getrainde grote tekst-naar-beeldmodellen, zoals Stable Diffusion, om innovatieve concepten te genereren, zoals de gebruikers zelf. Echter, het nieuw toegevoegde concept van eerdere aanpassingsmethoden vertoont vaak zwakkere combinatiemogelijkheden dan de originele, zelfs wanneer er tijdens de training meerdere afbeeldingen worden gebruikt. Daarom stellen we een nieuwe personalisatiemethode voor die een naadloze integratie van een uniek individu in het vooraf getrainde diffusiemodel mogelijk maakt met slechts één gezichtsfoto en slechts 1024 leerbare parameters in minder dan 3 minuten. Hierdoor kunnen we moeiteloos indrukwekkende afbeeldingen van deze persoon genereren in elke houding of positie, interagerend met wie dan ook en alles doen wat voorstelbaar is op basis van tekstprompts. Om dit te bereiken, analyseren en construeren we eerst een goed gedefinieerde beroemdhedenbasis vanuit de inbeddingsruimte van de vooraf getrainde grote tekstencoder. Vervolgens genereren we, gegeven één gezichtsfoto als de doelidentiteit, de eigen inbedding door het gewicht van deze basis te optimaliseren en alle andere parameters vast te zetten. Dankzij de voorgestelde beroemdhedenbasis toont de nieuwe identiteit in ons aangepaste model een betere conceptcombinatiecapaciteit dan eerdere personalisatiemethoden. Bovendien kan ons model ook meerdere nieuwe identiteiten tegelijkertijd leren en met elkaar laten interacteren, wat bij eerdere aanpassingsmodellen niet mogelijk was. De code zal worden vrijgegeven.
Grootschalige generatieve modellen zijn in staat om hoogwaardige afbeeldingen te produceren op basis van gedetailleerde tekstbeschrijvingen. Echter zijn veel aspecten van een afbeelding moeilijk of onmogelijk over te brengen via tekst. Wij introduceren zelfsturing, een methode die meer controle biedt over gegenereerde afbeeldingen door de interne representaties van diffusiemodellen te sturen. We demonstreren dat eigenschappen zoals de vorm, locatie en het uiterlijk van objecten kunnen worden geëxtraheerd uit deze representaties en gebruikt kunnen worden om de sampling te sturen. Zelfsturing werkt vergelijkbaar met classifier guidance, maar maakt gebruik van signalen die aanwezig zijn in het vooraf getrainde model zelf, waardoor geen aanvullende modellen of training nodig zijn. We laten zien hoe een eenvoudige set van eigenschappen kan worden samengesteld om uitdagende beeldmanipulaties uit te voeren, zoals het aanpassen van de positie of grootte van objecten, het combineren van het uiterlijk van objecten uit één afbeelding met de lay-out van een andere, het samenstellen van objecten uit meerdere afbeeldingen in één, en meer. We tonen ook aan dat zelfsturing kan worden gebruikt om echte afbeeldingen te bewerken. Voor resultaten en een interactieve demo, zie onze projectpagina op https://dave.ml/selfguidance/.
Het genereren van muziek vanuit tekstbeschrijvingen is een gebruiksvriendelijke methode, aangezien tekst een relatief eenvoudige interface biedt voor gebruikersinteractie. Hoewel sommige benaderingen tekst gebruiken om de generatie van muziekaudio te sturen, is het bewerken van muzikale elementen in gegenereerde audio uitdagend voor gebruikers. Symbolische muziek daarentegen biedt gemakkelijke bewerkingsmogelijkheden, waardoor het voor gebruikers toegankelijker wordt om specifieke muzikale elementen te manipuleren. In dit artikel stellen we MuseCoco voor, dat symbolische muziek genereert vanuit tekstbeschrijvingen met muzikale attributen als brug om de taak op te splitsen in tekst-naar-attribuutbegrip en attribuut-naar-muziekgeneratie fasen. MuseCoCo staat voor Music Composition Copilot en stelt muzikanten in staat om muziek direct vanuit gegeven tekstbeschrijvingen te genereren, wat een aanzienlijke verbetering in efficiëntie biedt in vergelijking met het volledig vanaf nul creëren van muziek. Het systeem heeft twee belangrijke voordelen: Ten eerste is het data-efficiënt. In de attribuut-naar-muziekgeneratie fase kunnen de attributen direct uit muzieksequenties worden geëxtraheerd, waardoor de modeltraining zelfsupervised is. In de tekst-naar-attribuutbegrip fase wordt de tekst gesynthetiseerd en verfijnd door ChatGPT op basis van gedefinieerde attribuutsjablonen. Ten tweede kan het systeem precieze controle bereiken met specifieke attributen in tekstbeschrijvingen en biedt het meerdere controle-opties via attribuut-geconditioneerde of tekst-geconditioneerde benaderingen. MuseCoco overtreft baseline-systemen wat betreft muzikaliteit, controleerbaarheid en algemene score met respectievelijk minimaal 1.27, 1.08 en 1.32. Daarnaast is er een opmerkelijke verbetering van ongeveer 20% in objectieve controle-nauwkeurigheid. Bovendien hebben we een robuust grootschalig model ontwikkeld met 1,2 miljard parameters, dat uitblinkt in controleerbaarheid en muzikaliteit.
Grote taalmodellen gebaseerd op transformatoren hebben grote empirische successen behaald. Naarmate ze echter breder worden ingezet, is er een groeiende behoefte om hun interne mechanismen beter te begrijpen om ze betrouwbaarder te maken. Deze modellen lijken enorme hoeveelheden kennis uit hun trainingsdata op te slaan en zich snel aan te passen aan nieuwe informatie die in hun context of prompt wordt aangeboden. Wij onderzoeken hoe transformatoren deze twee soorten kennis in balans brengen door een synthetische opzet te beschouwen waarin tokens worden gegenereerd uit globale of context-specifieke bigram-verdelingen. Door een zorgvuldige empirische analyse van het trainingsproces op een vereenvoudigde tweelaagse transformator, illustreren we het snelle leren van globale bigrams en de tragere ontwikkeling van een "inductiekop"-mechanisme voor de in-context bigrams. We benadrukken de rol van gewichtsmatrices als associatieve geheugens, bieden theoretische inzichten in hoe gradiënten hun leren tijdens de training mogelijk maken, en bestuderen de rol van data-distributie-eigenschappen.
Code intelligence speelt een cruciale rol in de transformatie van moderne software-engineering. Recentelijk hebben deep learning-modellen, met name Transformer-gebaseerde grote taalmodellen (LLM's), opmerkelijke potentie getoond bij het aanpakken van deze taken door gebruik te maken van enorme hoeveelheden open-source coderingsgegevens en programmeertaalfuncties. De ontwikkeling en implementatie van dergelijke modellen vereisen echter vaak expertise in zowel machine learning als software-engineering, wat een barrière vormt voor de adoptie van deze modellen. In dit artikel presenteren we CodeTF, een open-source Transformer-gebaseerde bibliotheek voor state-of-the-art Code LLM's en code intelligence. Volgens de principes van modulair ontwerp en een uitbreidbaar framework hebben we CodeTF ontworpen met een uniforme interface om snelle toegang en ontwikkeling mogelijk te maken voor verschillende soorten modellen, datasets en taken. Onze bibliotheek ondersteunt een verzameling vooraf getrainde Code LLM-modellen en populaire code benchmarks, inclusief een gestandaardiseerde interface om Code LLM's efficiënt te trainen en te gebruiken, en gegevensfuncties zoals taal-specifieke parsers en hulpfuncties voor het extraheren van code-attributen. In dit artikel beschrijven we de ontwerpprincipes, de architectuur, belangrijke modules en componenten, en vergelijken we deze met andere gerelateerde bibliotheektools. Tot slot hopen we dat CodeTF de kloof tussen machine learning/generatieve AI en software-engineering kan overbruggen, en een uitgebreide open-source oplossing biedt voor ontwikkelaars, onderzoekers en praktijkmensen.
Transformers staan centraal in de recente successen op het gebied van natuurlijke taalverwerking en computervisie. Transformers hebben een grotendeels uniforme backbone waarin lagen afwisselen tussen feed-forward en self-attention om een diep netwerk op te bouwen. Hier onderzoeken we deze ontwerpkeuze en ontdekken dat complexere blokken met verschillende permutaties van laag-primitieven efficiënter kunnen zijn. Gebruikmakend van dit inzicht ontwikkelen we een complex blok, genaamd Brainformer, dat bestaat uit diverse soorten lagen zoals sparsely gated feed-forward lagen, dense feed-forward lagen, attention lagen, en verschillende vormen van laagnormalisatie en activatiefuncties. Brainformer overtreft consequent de state-of-the-art dense en sparse Transformers, zowel in kwaliteit als efficiëntie. Een Brainformer-model met 8 miljard geactiveerde parameters per token toont een 2x snellere trainingsconvergentie en een 5x snellere staptijd in vergelijking met zijn GLaM-tegenhanger. In evaluaties van downstream taken demonstreert Brainformer ook een 3% hogere SuperGLUE-score na fine-tuning in vergelijking met GLaM met een vergelijkbaar aantal geactiveerde parameters. Tot slot presteert Brainformer aanzienlijk beter dan een Primer dense model dat is afgeleid met NAS, bij vergelijkbare berekeningen per token in fewshot-evaluaties.
Tekst-conditionele diffusiemodellen zijn in staat om hoogwaardige afbeeldingen te genereren met diverse inhoud. Linguïstische representaties vertonen echter vaak dubbelzinnige beschrijvingen van het beoogde doelbeeld, wat de integratie van aanvullende controlesignalen vereist om de effectiviteit van tekstgeleide diffusiemodellen te versterken. In dit werk stellen we Cocktail voor, een pijplijn om verschillende modaliteiten te combineren in één embedding, gecombineerd met een gegeneraliseerd ControlNet (gControlNet), een controleerbare normalisatie (ControlNorm), en een ruimtelijke begeleidingssteekproefmethode, om multi-modale en ruimtelijk verfijnde controle te realiseren voor tekst-conditionele diffusiemodellen. Specifiek introduceren we een hyper-netwerk gControlNet, gewijd aan de uitlijning en infusie van de controlesignalen van verschillende modaliteiten in het vooraf getrainde diffusiemodel. gControlNet is in staat om flexibele modaliteitssignalen te accepteren, waaronder de gelijktijdige ontvangst van elke combinatie van modaliteitssignalen, of de aanvullende fusie van meerdere modaliteitssignalen. De controlesignalen worden vervolgens samengevoegd en geïnjecteerd in het backbone-model volgens onze voorgestelde ControlNorm. Bovendien incorporeert onze geavanceerde ruimtelijke begeleidingssteekproefmethodologie het controlesignaal vaardig in het aangewezen gebied, waardoor het ontstaan van ongewenste objecten binnen de gegenereerde afbeelding wordt voorkomen. We demonstreren de resultaten van onze methode in het controleren van verschillende modaliteiten, waarbij hoogwaardige synthese en trouw aan meerdere externe signalen worden bewezen.
Diffusiemodelgebaseerde benaderingen hebben potentie getoond in data-gedreven planning, maar er zijn geen veiligheidsgaranties, waardoor het moeilijk is om ze toe te passen in veiligheidskritische toepassingen. Om deze uitdagingen aan te pakken, stellen we een nieuwe methode voor, genaamd SafeDiffuser, om ervoor te zorgen dat diffusie probabilistische modellen specificaties naleven door gebruik te maken van een klasse van controlebarrière-functies. De kern van onze aanpak is het inbedden van de voorgestelde eindige-tijd diffusie-invariantie in het denoiseringsdiffusieproces, wat betrouwbare diffusie-datageneratie mogelijk maakt. Bovendien tonen we aan dat onze eindige-tijd diffusie-invariantiemethode via generatieve modellen niet alleen de generalisatieprestaties behoudt, maar ook robuustheid creëert in veilige datageneratie. We testen onze methode op een reeks veilige plannings taken, waaronder doolhofpadgeneratie, voortbeweging van potenrobots en 3D-ruimtemanipulatie, waarbij de resultaten de voordelen van robuustheid en garanties aantonen ten opzichte van standaard diffusiemodellen.
We introduceren de ObjectFolder Benchmark, een benchmarksuite van 10 taken voor multisensorisch objectgericht leren, gericht op objectherkenning, reconstructie en manipulatie met zicht, geluid en aanraking. We introduceren ook de ObjectFolder Real dataset, die de multisensorische metingen bevat voor 100 alledaagse huishoudelijke objecten, gebaseerd op een nieuw ontworpen pipeline voor het verzamelen van 3D-meshes, video's, impactsgeluiden en tactiele metingen van echte objecten. We voeren systematische benchmarking uit op zowel de 1.000 multisensorische neurale objecten uit ObjectFolder als de echte multisensorische data uit ObjectFolder Real. Onze resultaten tonen het belang aan van multisensorische waarneming en onthullen de respectieve rollen van visie, audio en aanraking voor verschillende objectgerichte leertaken. Door onze dataset en benchmarksuite openbaar te maken, hopen we nieuw onderzoek te stimuleren en mogelijk te maken op het gebied van multisensorisch objectgericht leren in computervisie, robotica en daarbuiten. Projectpagina: https://objectfolder.stanford.edu