Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We presenteren SDXL, een latent diffusiemodel voor tekst-naar-beeldsynthese. In vergelijking met eerdere versies van Stable Diffusion, maakt SDXL gebruik van een UNet-backbone die drie keer groter is: de toename van modelparameters is voornamelijk te danken aan meer aandachtblokken en een grotere cross-attention context, aangezien SDXL een tweede tekstencoder gebruikt. We ontwerpen meerdere nieuwe conditioneringsschema's en trainen SDXL op meerdere beeldverhoudingen. We introduceren ook een verfijningsmodel dat wordt gebruikt om de visuele kwaliteit van door SDXL gegenereerde samples te verbeteren met behulp van een post-hoc beeld-naar-beeldtechniek. We tonen aan dat SDXL een aanzienlijk verbeterde prestaties laat zien in vergelijking met eerdere versies van Stable Diffusion en resultaten behaalt die concurrerend zijn met die van state-of-the-art beeldgeneratoren met gesloten systeem. In de geest van het bevorderen van open onderzoek en het stimuleren van transparantie in het trainen en evalueren van grote modellen, bieden we toegang tot code en modelgewichten op https://github.com/Stability-AI/generative-models.
Het schalen van sequentielengte is een kritieke behoefte geworden in het tijdperk van grote taalmodelen. Bestaande methoden kampen echter met ofwel computationele complexiteit ofwel modeluitdrukkingskracht, waardoor de maximale sequentielengte beperkt blijft. In dit werk introduceren we LongNet, een Transformer-variant die de sequentielengte kan schalen tot meer dan 1 miljard tokens, zonder in te leveren op prestaties bij kortere sequenties. Specifiek stellen we gedilateerde aandacht voor, die het aandachtveld exponentieel uitbreidt naarmate de afstand groeit. LongNet heeft aanzienlijke voordelen: 1) het heeft een lineaire computationele complexiteit en een logaritmische afhankelijkheid tussen tokens; 2) het kan dienen als een gedistribueerde trainer voor extreem lange sequenties; 3) de gedilateerde aandacht is een directe vervanging voor standaard aandacht, die naadloos kan worden geïntegreerd met de bestaande Transformer-gebaseerde optimalisatie. Experimentele resultaten tonen aan dat LongNet sterke prestaties levert bij zowel lange-sequentiemodellering als algemene taaltaken. Ons werk opent nieuwe mogelijkheden voor het modelleren van zeer lange sequenties, zoals het behandelen van een volledig corpus of zelfs het hele internet als een sequentie.
Ondanks het vermogen van bestaande grootschalige tekst-naar-beeld (T2I) modellen om hoogwaardige afbeeldingen te genereren vanuit gedetailleerde tekstuele beschrijvingen, ontbreekt het hen vaak aan de mogelijkheid om gegenereerde of echte afbeeldingen precies te bewerken. In dit artikel stellen we een nieuwe beeldbewerkingsmethode voor, DragonDiffusion, die Drag-style manipulatie mogelijk maakt op Diffusion-modellen. Specifiek construeren we classifier guidance op basis van de sterke correspondentie van tussenliggende kenmerken in het diffusion-model. Dit kan de bewerkingssignalen omzetten in gradienten via een kenmerkcorrespondentieverlies om de tussenliggende representatie van het diffusion-model aan te passen. Op basis van deze guidance-strategie bouwen we ook een multi-scale guidance om zowel semantische als geometrische uitlijning te overwegen. Bovendien wordt een cross-branch self-attention toegevoegd om de consistentie tussen het originele beeld en het bewerkingsresultaat te behouden. Onze methode bereikt, door een efficiënt ontwerp, verschillende bewerkingsmodi voor gegenereerde of echte afbeeldingen, zoals objectverplaatsing, objectgrootteaanpassing, objectuiterlijkvervanging en inhoudslepen. Het is vermeldenswaard dat alle bewerkings- en inhoudsbehoudsignalen afkomstig zijn van het beeld zelf, en het model vereist geen fine-tuning of aanvullende modules. Onze broncode zal beschikbaar zijn op https://github.com/MC-E/DragonDiffusion.
Onlangs heeft de release van INSTRUCTEVAL waardevolle inzichten geboden in de prestaties van grote taalmodellen (LLM's) die gebruikmaken van een encoder-decoder- of decoder-only-architectuur. Interessant genoeg blijven T5-gebaseerde LLM's, zoals FLAN-T5, ondanks dat ze vier jaar geleden zijn geïntroduceerd, de nieuwste decoder-gebaseerde LLM's, zoals LLAMA en VICUNA, overtreffen bij taken die algemene probleemoplossende vaardigheden vereisen. Dit prestatieverschil kan worden toegeschreven aan drie belangrijke factoren: (1) Pre-trainingsdata, (2) Backbone-architectuur, en (3) Instructiedataset. In dit technische rapport ligt onze focus voornamelijk op het onderzoeken van de impact van de derde factor door gebruik te maken van VICUNA, een groot taalmodel gebaseerd op LLAMA, dat is verfijnd op ChatGPT-conversaties. Om dit doel te bereiken, hebben we VICUNA verfijnd met behulp van een aangepaste verzameling instructiedatasets genaamd FLANMINI. Deze verzameling omvat een subset van de grootschalige instructiedataset FLAN, evenals diverse code-gerelateerde datasets en conversatiedatasets afgeleid van ChatGPT/GPT-4. Deze dataset bevat een groot aantal taken die probleemoplossende vaardigheden vereisen. Onze experimentele bevindingen tonen sterk aan dat de verbeterde probleemoplossende vaardigheden van ons model, FLACUNA, worden verkregen door VICUNA te verfijnen op de FLAN-dataset, wat leidt tot significante verbeteringen op tal van benchmarkdatasets in INSTRUCTEVAL. FLACUNA is publiekelijk beschikbaar op https://huggingface.co/declare-lab/flacuna-13b-v1.0.
Document understanding verwijst naar het automatisch extraheren, analyseren en begrijpen van informatie uit verschillende soorten digitale documenten, zoals een webpagina. Bestaande Multi-model Large Language Models (MLLMs), waaronder mPLUG-Owl, hebben veelbelovende zero-shot mogelijkheden getoond in oppervlakkige OCR-vrije tekstherkenning, wat hun potentieel voor OCR-vrij documentbegrip aangeeft. Desondanks neigen deze modellen, zonder domeinspecifieke training, fijnmazige OCR-kenmerken te negeren, zoals complexe tabellen of grote tekstblokken, die essentieel zijn voor OCR-vrij documentbegrip. In dit artikel stellen we mPLUG-DocOwl voor, gebaseerd op mPLUG-Owl, voor OCR-vrij documentbegrip. Specifiek construeren we eerst een instructieafstemmingsdataset met een breed scala aan visueel-tekstbegriptaken. Vervolgens versterken we het OCR-vrije documentbegrip door het model gezamenlijk te trainen op taal-only, algemene visie-en-taal, en documentinstructieafstemmingsdataset met onze geünificeerde instructieafstemmingsstrategie. We bouwen ook een OCR-vrij documentinstructiebegrip-evaluatieset LLMDoc om de mogelijkheden van modellen op instructiecompliance en documentbegrip beter te vergelijken. Experimentele resultaten tonen aan dat ons model bestaande multimodale modellen overtreft, wat zijn sterke documentbegripvermogen aantoont. Bovendien generaliseert mPLUG-DocOwl, zonder specifieke fine-tuning, goed op verschillende downstreamtaken. Onze code, modellen, trainingsdata en evaluatieset zijn beschikbaar op https://github.com/X-PLUG/mPLUG-DocOwl.
Grote taalmodellen die zijn getraind voor veiligheid en onschadelijkheid blijven vatbaar voor kwaadwillig misbruik, zoals blijkt uit de prevalentie van "jailbreak"-aanvallen op vroege releases van ChatGPT die ongewenst gedrag uitlokken. Verder dan alleen het erkennen van het probleem, onderzoeken we waarom dergelijke aanvallen slagen en hoe ze kunnen worden gecreëerd. We stellen twee faalmodi van veiligheidstraining voor: concurrerende doelstellingen en mismatched generalisatie. Concurrerende doelstellingen ontstaan wanneer de mogelijkheden van een model en de veiligheidsdoelen met elkaar in conflict zijn, terwijl mismatched generalisatie optreedt wanneer de veiligheidstraining niet generaliseert naar een domein waarvoor mogelijkheden bestaan. We gebruiken deze faalmodi om jailbreak-ontwerpen te begeleiden en evalueren vervolgens state-of-the-art modellen, waaronder OpenAI's GPT-4 en Anthropic's Claude v1.3, tegen zowel bestaande als nieuw ontworpen aanvallen. We constateren dat kwetsbaarheden blijven bestaan ondanks de uitgebreide red-teaming en veiligheidstraining inspanningen achter deze modellen. Opmerkelijk is dat nieuwe aanvallen die gebruikmaken van onze faalmodi slagen voor elke prompt in een verzameling onveilige verzoeken uit de red-teaming evaluatiesets van de modellen en bestaande ad hoc jailbreaks overtreffen. Onze analyse benadrukt de noodzaak van veiligheid-capaciteitspariteit -- dat veiligheidsmechanismen even geavanceerd moeten zijn als het onderliggende model -- en pleit tegen het idee dat schaalvergroting alleen deze veiligheidsfaalmodi kan oplossen.
Recente vooruitgang in Large Language Models (LLMs) zoals GPT4 heeft uitzonderlijke multimodale capaciteiten getoond bij het volgen van open instructies op basis van afbeeldingen. De prestaties van deze modellen zijn echter sterk afhankelijk van ontwerpkeuzes zoals netwerkstructuren, trainingsdata en trainingsstrategieën, en deze keuzes zijn niet uitgebreid besproken in de literatuur, wat het moeilijk maakt om vooruitgang op dit gebied te kwantificeren. Om dit probleem aan te pakken, presenteert dit artikel een systematische en uitgebreide studie, zowel kwantitatief als kwalitatief, over het trainen van dergelijke modellen. We implementeren meer dan 20 varianten met gecontroleerde instellingen. Concreet vergelijken we voor netwerkstructuren verschillende LLM-backbones en modelontwerpen. Voor trainingsdata onderzoeken we de impact van data en samplingstrategieën. Voor instructies verkennen we de invloed van gediversifieerde prompts op de instructievolgcapaciteit van de getrainde modellen. Voor benchmarks dragen we, voor zover wij weten, de eerste uitgebreide evaluatieset bij, inclusief zowel beeld- als videotaken, via crowdsourcing. Op basis van onze bevindingen presenteren we Lynx, dat de meest nauwkeurige multimodale begripsvorming biedt terwijl het de beste multimodale generatiecapaciteit behoudt in vergelijking met bestaande open-source GPT4-stijl modellen.
Grote Taalmodellen (LLMs) hebben indrukwekkende planningsvaardigheden getoond in taken met één agent in verschillende domeinen. Hun vermogen tot planning en communicatie in samenwerking tussen meerdere agents blijft echter onduidelijk, hoewel dit cruciale vaardigheden zijn voor intelligente, belichaamde agents. In dit artikel presenteren we een nieuw raamwerk dat LLMs gebruikt voor samenwerking tussen meerdere agents en testen we dit in verschillende belichaamde omgevingen. Ons raamwerk stelt belichaamde agents in staat om te plannen, te communiceren en samen te werken met andere belichaamde agents of mensen om langetermijntaken efficiënt uit te voeren. We laten zien dat recente LLMs, zoals GPT-4, sterke op planning gebaseerde methoden kunnen overtreffen en effectieve communicatie kunnen vertonen met behulp van ons raamwerk, zonder dat fine-tuning of few-shot prompting nodig is. We ontdekken ook dat LLM-gebaseerde agents die in natuurlijke taal communiceren, meer vertrouwen kunnen winnen en effectiever kunnen samenwerken met mensen. Ons onderzoek benadrukt het potentieel van LLMs voor belichaamde AI en legt de basis voor toekomstig onderzoek naar samenwerking tussen meerdere agents. Video's zijn te vinden op de projectwebsite https://vis-www.cs.umass.edu/Co-LLM-Agents/.
Grote taalmodellen (LLMs) vertonen een breed scala aan veelbelovende capaciteiten – van stapsgewijze planning tot gezond verstand redeneren – die nuttig kunnen zijn voor robots, maar blijven gevoelig voor zelfverzekerde, hallucinerende voorspellingen. In dit werk presenteren we KnowNo, een raamwerk voor het meten en afstemmen van de onzekerheid van LLM-gebaseerde planners, zodat ze weten wanneer ze iets niet weten en om hulp vragen wanneer dat nodig is. KnowNo bouwt voort op de theorie van conformal prediction om statistische garanties te bieden voor taakvoltooiing, terwijl menselijke hulp wordt geminimaliseerd in complexe, meerstaps planningsscenario’s. Experimenten in diverse gesimuleerde en echte robotopstellingen, waarbij taken met verschillende vormen van ambiguïteit betrokken zijn (bijv. van ruimtelijke tot numerieke onzekerheden, van menselijke voorkeuren tot Winograd-schema’s), laten zien dat KnowNo gunstig presteert ten opzichte van moderne referentiemodellen (die bijvoorbeeld ensembles of uitgebreide prompt-tuning kunnen omvatten) in termen van efficiëntie en autonomie, terwijl het formele garanties biedt. KnowNo kan direct worden gebruikt met LLMs zonder model-finetuning, en suggereert een veelbelovende, lichtgewicht benadering voor het modelleren van onzekerheid die kan aanvullen en meeschalen met de groeiende capaciteiten van foundationmodellen. Website: https://robot-help.github.io
Recente Diffusion Transformers (bijv. DiT) hebben hun krachtige effectiviteit aangetoond bij het genereren van hoogwaardige 2D-afbeeldingen. Het is echter nog onduidelijk of de Transformer-architectuur even goed presteert bij 3D-vormgeneratie, aangezien eerdere 3D-diffusiemethoden voornamelijk de U-Net-architectuur gebruikten. Om deze kloof te overbruggen, stellen we een nieuwe Diffusion Transformer voor 3D-vormgeneratie voor, genaamd DiT-3D, die het denoisingsproces direct kan uitvoeren op gevoxeliseerde puntenwolken met behulp van standaard Transformers. In vergelijking met bestaande U-Net-benaderingen is onze DiT-3D beter schaalbaar in modelgrootte en produceert het veel hogere kwaliteit generaties. Specifiek neemt de DiT-3D het ontwerpprincipe van DiT over, maar past het aan door 3D-positie- en patchembeddings te integreren om invoer van gevoxeliseerde puntenwolken adaptief te aggregeren. Om de rekenkosten van zelf-attentie in 3D-vormgeneratie te verminderen, integreren we 3D-venster-attentie in Transformer-blokken, aangezien de toegenomen 3D-tokenlengte als gevolg van de extra dimensie van voxels tot hoge rekencosten kan leiden. Ten slotte worden lineaire en devoxeliseringslagen gebruikt om de gedenoiseerde puntenwolken te voorspellen. Daarnaast ondersteunt onze transformer-architectuur efficiënte fine-tuning van 2D naar 3D, waarbij het vooraf getrainde DiT-2D-checkpoint op ImageNet de DiT-3D aanzienlijk kan verbeteren op ShapeNet. Experimentele resultaten op de ShapeNet-dataset tonen aan dat de voorgestelde DiT-3D state-of-the-art prestaties bereikt in hoogwaardige en diverse 3D-puntenwolkengeneratie. In het bijzonder verlaagt onze DiT-3D de 1-Nearest Neighbor Accuracy van de state-of-the-art methode met 4,59 en verhoogt het de Coverage-metric met 3,51 bij evaluatie op Chamfer Distance.
Avatars zijn belangrijk voor het creëren van interactieve en meeslepende ervaringen in virtuele werelden. Een uitdaging bij het animeren van deze personages om de bewegingen van een gebruiker na te bootsen, is dat commerciële AR/VR-producten alleen bestaan uit een headset en controllers, wat zeer beperkte sensordata over de houding van de gebruiker oplevert. Een andere uitdaging is dat een avatar mogelijk een ander skeletstructuur heeft dan een mens en de mapping tussen hen onduidelijk is. In dit werk gaan we beide uitdagingen aan. We introduceren een methode om bewegingen in real-time te retargeten van schaarse menselijke sensordata naar personages met verschillende morfologieën. Onze methode gebruikt reinforcement learning om een beleid te trainen dat personages bestuurt in een fysicasimulator. We hebben alleen menselijke motion capture-data nodig voor de training, zonder afhankelijk te zijn van door artiesten gegenereerde animaties voor elke avatar. Hierdoor kunnen we grote motion capture-datasets gebruiken om algemene beleidsregels te trainen die ongeziene gebruikers kunnen volgen op basis van echte en schaarse data in real-time. We demonstreren de haalbaarheid van onze aanpak op drie personages met verschillende skeletstructuren: een dinosaurus, een muisachtig wezen en een mens. We laten zien dat de houdingen van de avatar vaak verrassend goed overeenkomen met die van de gebruiker, ondanks het ontbreken van sensorinformatie over het onderlichaam. We bespreken en analyseren de belangrijke componenten in ons framework, specifiek de kinematische retargeting-stap, de imitatie-, contact- en actiebeloning, evenals onze asymmetrische actor-critic observaties. We onderzoeken verder de robuustheid van onze methode in verschillende situaties, waaronder uit balans raken, dansen en sportbewegingen.
Dit onderzoek analyseert de prestaties van open-source Large Language Models (LLM's) bij tekstannotatietaken en vergelijkt deze met propriëtaire modellen zoals ChatGPT en menselijke diensten zoals MTurk. Hoewel eerder onderzoek de hoge prestaties van ChatGPT bij talrijke NLP-taken aantoonde, krijgen open-source LLM's zoals HugginChat en FLAN steeds meer aandacht vanwege hun kosteneffectiviteit, transparantie, reproduceerbaarheid en superieure gegevensbescherming. We evalueren deze modellen met behulp van zowel zero-shot als few-shot benaderingen en verschillende temperatuurparameters bij een reeks tekstannotatietaken. Onze bevindingen tonen aan dat ChatGPT weliswaar de beste prestaties levert bij de meeste taken, maar dat open-source LLM's niet alleen MTurk overtreffen, maar ook competitief potentieel tonen ten opzichte van ChatGPT bij specifieke taken.
De invoertokens voor Vision Transformers dragen weinig semantische betekenis, aangezien ze zijn gedefinieerd als regelmatige, even grote patches van de invoerafbeelding, ongeacht de inhoud ervan. Het verwerken van uniforme achtergrondgebieden van een afbeelding zou echter niet zoveel rekenkracht moeten vereisen als dichte, rommelige gebieden. Om dit probleem aan te pakken, stellen we een dynamisch gemengd-schaal tokenisatieschema voor ViT voor, genaamd MSViT. Onze methode introduceert een conditioneel gatingmechanisme dat de optimale tokenschaal selecteert voor elk beeldgebied, zodat het aantal tokens dynamisch wordt bepaald per invoer. Het voorgestelde gatingmodule is lichtgewicht, onafhankelijk van de keuze van het transformer-backbone, en wordt binnen enkele epochs getraind (bijvoorbeeld 20 epochs op ImageNet) met weinig trainingsoverhead. Daarnaast introduceren we een nieuwe generalisatie van de batch-shaping loss om het conditionele gedrag van de gate tijdens de training te verbeteren. We laten zien dat onze gatingmodule in staat is om betekenisvolle semantiek te leren, ondanks dat deze lokaal opereert op het grove patchniveau. We valideren MSViT op de taken van classificatie en segmentatie, waar het leidt tot een verbeterde nauwkeurigheid-complexiteit afweging.
Het uitrusten van belichaamde agents met gezond verstand is belangrijk om robots complexe menselijke instructies succesvol te laten uitvoeren in algemene omgevingen. Recente grote taalmodellen (LLM) kunnen rijke semantische kennis inbedden voor agents bij het genereren van plannen voor complexe taken, maar ze missen informatie over de realistische wereld en produceren vaak onuitvoerbare actievolgordes. In dit artikel stellen we een TAsk Planing Agent (TaPA) voor bij belichaamde taken voor geaarde planning met fysieke scènebeperkingen, waarbij de agent uitvoerbare plannen genereert op basis van de aanwezige objecten in de scène door LLM's af te stemmen op visuele waarnemingsmodellen. Specifiek construeren we eerst een multimodale dataset met triplets van binnenruimtes, instructies en actieplannen, waarbij we ontworpen prompts en een lijst van aanwezige objecten in de scène aanbieden aan GPT-3.5 om een groot aantal instructies en bijbehorende geplande acties te genereren. De gegenereerde data wordt gebruikt voor het afstemmen van vooraf getrainde LLM's op geaarde planning. Tijdens inferentie ontdekken we de objecten in de scène door open-vocabulary objectdetectors uit te breiden naar multi-view RGB-beelden die zijn verzameld op verschillende bereikbare locaties. Experimentele resultaten tonen aan dat het gegenereerde plan van ons TaPA-raamwerk een hoger slagingspercentage kan behalen dan LLaVA en GPT-3.5 met een aanzienlijke marge, wat de praktische bruikbaarheid van belichaamde taakplanning in algemene en complexe omgevingen aangeeft.
Dit artikel introduceert de Elastic Decision Transformer (EDT), een belangrijke vooruitgang ten opzichte van de bestaande Decision Transformer (DT) en zijn varianten. Hoewel DT beweert een optimale trajectorie te genereren, suggereert empirisch bewijs dat het moeite heeft met trajectoriestitching, een proces waarbij een optimale of bijna-optimale trajectorie wordt gegenereerd uit de beste delen van een reeks suboptimale trajectorieën. De voorgestelde EDT onderscheidt zich door trajectoriestitching mogelijk te maken tijdens actie-inferentie op testmomenten, wat wordt bereikt door de historielengte die in DT wordt aangehouden aan te passen. Bovendien optimaliseert de EDT de trajectorie door een langere historie te behouden wanneer de vorige trajectorie optimaal is en een kortere wanneer deze suboptimaal is, waardoor het mogelijk wordt om te "stitchen" met een meer optimale trajectorie. Uitgebreide experimenten tonen aan dat de EDT in staat is de prestatiekloof tussen DT-gebaseerde en Q Learning-gebaseerde benaderingen te overbruggen. In het bijzonder presteert de EDT beter dan Q Learning-gebaseerde methoden in een multi-taskregime op de D4RL-locomotiebenchmark en Atari-spellen. Video's zijn beschikbaar op: https://kristery.github.io/edt/
Muziek wordt gebruikt om emoties over te brengen, en daarom is het genereren van emotionele muziek belangrijk bij automatische muziekgeneratie. Eerder werk op het gebied van emotionele muziekgeneratie gebruikt direct geannoteerde emotielabels als controlesignalen, wat lijdt onder subjectieve bias: verschillende mensen kunnen verschillende emoties annoteren bij dezelfde muziek, en één persoon kan onder verschillende omstandigheden verschillende emoties ervaren. Daarom zou het direct in een end-to-end manier mappen van emotielabels naar muzieksequenties het leerproces verwarren en het model belemmeren in het genereren van muziek met algemene emoties. In dit artikel stellen we EmoGen voor, een systeem voor emotionele muziekgeneratie dat gebruikmaakt van een set emotiegerelateerde muziekatributen als brug tussen emotie en muziek, en de generatie opdeelt in twee fasen: emotie-naar-attribuut mapping met gesuperviseerde clustering, en attribuut-naar-muziek generatie met zelfgesuperviseerd leren. Beide fasen zijn voordelig: in de eerste fase vertegenwoordigen de attribuutwaarden rond het clusteringcentrum de algemene emoties van deze samples, wat helpt om de invloed van de subjectieve bias van emotielabels te elimineren; in de tweede fase is de generatie volledig losgekoppeld van emotielabels en dus vrij van de subjectieve bias. Zowel subjectieve als objectieve evaluaties tonen aan dat EmoGen eerdere methoden overtreft op het gebied van emotiecontrole nauwkeurigheid en muziekkwaliteit respectievelijk, wat onze superioriteit aantoont in het genereren van emotionele muziek. Muzieksamples gegenereerd door EmoGen zijn beschikbaar via deze link: https://ai-muzic.github.io/emogen/, en de code is beschikbaar via deze link: https://github.com/microsoft/muzic/.