Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Tekst-naar-beeldgeneratie is een belangrijk domein binnen de moderne computervisie en heeft aanzienlijke verbeteringen bereikt door de evolutie van generatieve architecturen. Hieronder bevinden zich op diffusie gebaseerde modellen die essentiële kwaliteitsverbeteringen hebben aangetoond. Deze modellen worden over het algemeen verdeeld in twee categorieën: pixelniveau- en latentniveau-benaderingen. Wij presenteren Kandinsky1, een nieuwe verkenning van de latent diffusie-architectuur, waarbij de principes van de beeldprior-modellen worden gecombineerd met latent diffusie-technieken. Het beeldprior-model wordt apart getraind om tekst-embeddings af te beelden op beeld-embeddings van CLIP. Een ander onderscheidend kenmerk van het voorgestelde model is de aangepaste MoVQ-implementatie, die fungeert als de beeld-autoencoder-component. Over het algemeen bevat het ontworpen model 3,3 miljard parameters. We hebben ook een gebruiksvriendelijk demosysteem geïmplementeerd dat diverse generatieve modi ondersteunt, zoals tekst-naar-beeldgeneratie, beeldfusie, tekst- en beeldfusie, beeldvariatiesgeneratie en tekstgeleide inpainting/outpainting. Daarnaast hebben we de broncode en checkpoints voor de Kandinsky-modellen vrijgegeven. Experimentele evaluaties tonen een FID-score van 8,03 op de COCO-30K dataset, wat ons model markeert als de beste open-source presteerder in termen van meetbare beeldgeneratiekwaliteit.
Grote multimodale modellen (LMM) hebben recentelijk bemoedigende vooruitgang geboekt met visuele instructieafstemming. In deze notitie tonen we aan dat de volledig verbonden visie-taal cross-modale connector in LLaVA verrassend krachtig en data-efficiënt is. Met eenvoudige aanpassingen aan LLaVA, namelijk het gebruik van CLIP-ViT-L-336px met een MLP-projectie en het toevoegen van academische-taakgerichte VQA-gegevens met eenvoudige antwoordformatteringprompts, stellen we sterkere basislijnen vast die state-of-the-art prestaties behalen op 11 benchmarks. Onze laatste 13B checkpoint gebruikt slechts 1,2M openbaar beschikbare gegevens en voltooit de volledige training in ongeveer 1 dag op een enkele 8-A100 node. We hopen dat dit state-of-the-art LMM-onderzoek toegankelijker kan maken. Code en model zullen openbaar beschikbaar worden gesteld.
De onlangs vrijgegeven GPT-4 Code Interpreter heeft opmerkelijke vaardigheden getoond in het oplossen van uitdagende wiskundige problemen, voornamelijk toegeschreven aan zijn vermogen om naadloos te redeneren met natuurlijke taal, code te genereren, code uit te voeren en verder te redeneren op basis van de uitvoerresultaten. In dit artikel presenteren we een methode om open-source taalmodelen te fine-tunen, waardoor ze code kunnen gebruiken voor het modelleren en afleiden van wiskundige vergelijkingen, en zo hun wiskundige redeneervaardigheden te verbeteren. We stellen een methode voor om nieuwe en hoogwaardige datasets te genereren met wiskundige problemen en hun code-gebaseerde oplossingen, genaamd MathCodeInstruct. Elke oplossing combineert natuurlijke taal, code en uitvoerresultaten. We introduceren ook een aangepaste aanpak voor supervised fine-tuning en inferentie. Deze aanpak resulteert in de MathCoder-modellen, een familie van modellen die in staat zijn om code-gebaseerde oplossingen te genereren voor het oplossen van uitdagende wiskundige problemen. Indrukwekkend genoeg behalen de MathCoder-modellen state-of-the-art scores onder open-source LLM's op de MATH (45,2%) en GSM8K (83,9%) datasets, waarbij ze andere open-source alternatieven aanzienlijk overtreffen. Opmerkelijk is dat het MathCoder-model niet alleen ChatGPT-3.5 en PaLM-2 overtreft op GSM8K en MATH, maar ook GPT-4 verslaat op de competitie-niveau MATH dataset. De dataset en modellen zullen worden vrijgegeven op https://github.com/mathllm/MathCoder.
Text-to-image diffusiemodellen zijn recent naar voren gekomen als toonaangevend in beeldgeneratie, aangedreven door zeer grootschalige, onbewaakte of zwak begeleide tekst-naar-beeld trainingsdatasets. Vanwege hun onbewaakte training is het moeilijk om hun gedrag te beheersen in downstream taken, zoals het maximaliseren van door mensen waargenomen beeldkwaliteit, beeld-tekstuitlijning of ethische beeldgeneratie. Recente werken finetunen diffusiemodellen naar downstream beloningsfuncties met behulp van standaard reinforcement learning, berucht vanwege de hoge variantie van de gradientenschatters. In dit artikel stellen we AlignProp voor, een methode die diffusiemodellen uitlijnt met downstream beloningsfuncties door middel van end-to-end backpropagatie van de beloningsgradiënt door het denoisingsproces. Hoewel een naïeve implementatie van dergelijke backpropagatie een onhaalbaar geheugengebruik zou vereisen voor het opslaan van de partiële afgeleiden van moderne tekst-naar-beeldmodellen, finetunt AlignProp laag-rang adaptergewichtmodules en gebruikt het gradient checkpointing om het geheugengebruik haalbaar te maken. We testen AlignProp in het finetunen van diffusiemodellen naar verschillende doelen, zoals beeld-tekst semantische uitlijning, esthetiek, comprimeerbaarheid en beheersbaarheid van het aantal aanwezige objecten, evenals hun combinaties. We laten zien dat AlignProp hogere beloningen behaalt in minder trainingsstappen dan alternatieven, terwijl het conceptueel eenvoudiger is, waardoor het een rechttoe rechtaan keuze is voor het optimaliseren van diffusiemodellen voor differentieerbare beloningsfuncties van belang. Code en visualisatieresultaten zijn beschikbaar op https://align-prop.github.io/.
Taalmodelen (LMs) hebben aangetoond in staat te zijn om een verscheidenheid aan generatieve taken uit te voeren. Dit artikel presenteert het UniAudio-systeem, dat, in tegenstelling tot eerdere taakspecifieke benaderingen, LM-technieken benut om meerdere soorten audio (inclusief spraak, geluiden, muziek en zang) te genereren op basis van gegeven invoercondities. UniAudio 1) tokeniseert eerst alle soorten doel-audio samen met andere conditiemodaliteiten, 2) voegt bron-doelparen samen als een enkele reeks, en 3) voert voorspelling van het volgende token uit met behulp van LMs. Daarnaast wordt een multi-scale Transformer-model voorgesteld om de overmatig lange reeksen te verwerken die worden veroorzaakt door de op residuvectorkwantisatie gebaseerde neurale codec tijdens de tokenisatie. De training van UniAudio wordt opgeschaald naar 165K uur aan audio en 1B parameters, gebaseerd op alle generatieve taken, met als doel voldoende voorkennis te verkrijgen, niet alleen over de intrinsieke eigenschappen van audio, maar ook over de onderlinge relatie tussen audio en andere modaliteiten. Daarom heeft het getrainde UniAudio-model het potentieel om een fundamenteel model te worden voor universele audiogeneratie: het toont sterke capaciteiten in alle getrainde taken en kan na eenvoudige fine-tuning naadloos nieuwe audiogeneratietaken ondersteunen. Experimenten tonen aan dat UniAudio state-of-the-art of ten minste competitieve resultaten behaalt op de meeste van de 11 taken. Demo en code zijn vrijgegeven op https://github.com/yangdongchao/UniAudio.
De meeste grote taalmodellen (LLMs) worden eenmaal getraind en nooit bijgewerkt; daardoor ontbreekt het hen aan het vermogen om zich dynamisch aan te passen aan onze voortdurend veranderende wereld. In dit werk voeren we een gedetailleerde studie uit naar de feitelijkheid van door LLM gegenereerde tekst in de context van het beantwoorden van vragen die actuele wereldkennis testen. Specifiek introduceren we FreshQA, een nieuwe dynamische QA-benchmark die een diverse reeks vraag- en antwoordtypen omvat, inclusief vragen die snel veranderende wereldkennis vereisen en vragen met valse premissen die ontkracht moeten worden. We benchmarken een diverse reeks van zowel gesloten als open-source LLMs onder een tweeledige evaluatieprocedure die ons in staat stelt zowel correctheid als hallucinatie te meten. Door middel van menselijke evaluaties met meer dan 50K oordelen, werpen we licht op de beperkingen van deze modellen en tonen we aan dat er aanzienlijke ruimte voor verbetering is: bijvoorbeeld worstelen alle modellen (ongeacht de modelgrootte) met vragen die snel veranderende kennis en valse premissen betreffen. Gemotiveerd door deze resultaten presenteren we FreshPrompt, een eenvoudige few-shot prompting-methode die de prestaties van een LLM op FreshQA aanzienlijk verbetert door relevante en actuele informatie die uit een zoekmachine wordt opgehaald, in de prompt op te nemen. Onze experimenten tonen aan dat FreshPrompt zowel concurrerende zoekmachine-augmented prompting-methoden zoals Self-Ask (Press et al., 2022) als commerciële systemen zoals Perplexity.AI overtreft. Verdere analyse van FreshPrompt onthult dat zowel het aantal opgehaalde bewijsstukken als hun volgorde een cruciale rol spelen bij het beïnvloeden van de correctheid van door LLM gegenereerde antwoorden. Daarnaast helpt het instrueren van het LLM om beknopte en directe antwoorden te genereren om hallucinatie te verminderen in vergelijking met het aanmoedigen van meer uitgebreide antwoorden. Om toekomstig werk te vergemakkelijken, maken we FreshQA beschikbaar op github.com/freshllms/freshqa en committeren we ons om het regelmatig bij te werken.
Huidige vision-language generatieve modellen zijn afhankelijk van uitgebreide corpora van gepaarde beeld-tekstgegevens om optimale prestaties en generalisatiecapaciteiten te bereiken. Het automatisch verzamelen van dergelijke gegevens (bijvoorbeeld via grootschalige webscraping) resulteert echter in lage kwaliteit en slechte beeld-tekstcorrelatie, terwijl menselijke annotatie nauwkeuriger is maar aanzienlijke handmatige inspanning en kosten vereist. Wij introduceren ITIT (InTegrating Image Text): een innovatief trainingsparadigma gebaseerd op het concept van cyclusconsistentie, dat vision-language training mogelijk maakt op ongepaarde beeld- en tekstgegevens. ITIT bestaat uit een gezamenlijke beeld-tekstencoder met gescheiden beeld- en tekstdecoders die bidirectionele beeld-naar-tekst en tekst-naar-beeldgeneratie mogelijk maken in een enkel raamwerk. Tijdens de training maakt ITIT gebruik van een kleine set gepaarde beeld-tekstgegevens om ervoor te zorgen dat de output redelijk goed overeenkomt met de input in beide richtingen. Tegelijkertijd wordt het model ook getraind op veel grotere datasets die alleen beelden of teksten bevatten. Dit wordt bereikt door cyclusconsistentie af te dwingen tussen de originele ongepaarde samples en de cyclusgegenereerde tegenhangers. Het genereert bijvoorbeeld een bijschrift voor een gegeven inputbeeld en gebruikt vervolgens het bijschrift om een outputbeeld te creëren, en dwingt gelijkenis af tussen de input- en outputbeelden. Onze experimenten tonen aan dat ITIT met ongepaarde datasets een vergelijkbaar schaalgedrag vertoont als het gebruik van hoogwaardige gepaarde gegevens. We demonstreren beeldgeneratie en bijschriftprestaties die op gelijke hoogte staan met state-of-the-art tekst-naar-beeld en beeld-naar-tekstmodellen met een veelvoud minder (slechts 3M) gepaarde beeld-tekstgegevens.
Er zijn grote successen gerapporteerd bij het gebruik van Reinforcement Learning from Human Feedback (RLHF) om grote taalmodellen af te stemmen. Open-source voorkeursdatasets en beloningsmodellen hebben bredere experimenten mogelijk gemaakt buiten generieke chatomgevingen, met name om systemen "behulpzamer" te maken voor taken zoals webvraagbeantwoording, samenvatting en meerzijdige dialogen. Bij het optimaliseren voor behulpzaamheid is consistent waargenomen dat RLHF modellen aanzet tot het produceren van langere uitvoer. Dit artikel toont aan dat het optimaliseren voor responslengte een belangrijke factor is achter de gerapporteerde verbeteringen van RLHF in deze contexten. Eerst onderzoeken we de relatie tussen beloning en lengte voor beloningsmodellen die getraind zijn op drie open-source voorkeursdatasets voor behulpzaamheid. Hier correleert lengte sterk met beloning, en verbeteringen in beloningsscore worden grotendeels gedreven door een verschuiving in de verdeling van uitvoerlengtes. Vervolgens verkennen we interventies tijdens zowel RL als het leren van beloningsmodellen om te zien of we dezelfde downstreamverbeteringen als RLHF kunnen bereiken zonder de lengte te vergroten. Hoewel onze interventies lengtetoename beperken, zijn ze niet uniform effectief in alle contexten. Bovendien ontdekken we dat zelfs het uitvoeren van RLHF met een beloning die uitsluitend op lengte is gebaseerd, het grootste deel van de downstreamverbeteringen ten opzichte van het initiële beleidsmodel kan reproduceren, wat aantoont dat beloningsmodellen in deze contexten nog een lange weg te gaan hebben.
Het uitvoeren van taken op het web brengt fundamentele uitdagingen met zich mee voor grote taalmmodellen (LLM's), waaronder combinatorisch grote taken in een open wereld en variaties tussen webinterfaces. Het simpelweg specificeren van een grote prompt om alle mogelijke gedragingen en statussen te behandelen is extreem complex en resulteert in gedragslekken tussen ongerelateerde gedragingen. Decompositie naar afzonderlijke beleidsregels kan deze uitdaging aanpakken, maar vereist een zorgvuldige overdracht van controle tussen beleidsregels. Wij stellen Stacked LLM Policies for Web Actions (SteP) voor, een benadering om dynamisch beleidsregels samen te stellen om een diverse set van webtaken op te lossen. SteP definieert een Markov-beslissingsproces waarbij de staat een stapel van beleidsregels is die de controletoestand vertegenwoordigen, d.w.z. de keten van beleidsaanroepen. In tegenstelling tot traditionele methoden die beperkt zijn tot statische hiërarchieën, maakt SteP dynamische controle mogelijk die zich aanpast aan de complexiteit van de taak. We evalueren SteP tegen meerdere basislijnen en webomgevingen, waaronder WebArena, MiniWoB++ en een CRM. Op WebArena verbetert SteP (14,9\% tot 33,5\%) ten opzichte van state-of-the-art methoden die GPT-4-beleidsregels gebruiken, terwijl SteP op MiniWob++ concurrerend is met eerdere werken terwijl het aanzienlijk minder data gebruikt. Onze code en data zijn beschikbaar op https://asappresearch.github.io/webagents-step.
We introduceren DragView, een nieuw en interactief raamwerk voor het genereren van nieuwe aanzichten van onbekende scènes. DragView initialiseert het nieuwe aanzicht vanuit een enkele bronafbeelding, en de rendering wordt ondersteund door een spaarse set van niet-geposeerde multi-view afbeeldingen, allemaal naadloos uitgevoerd in een enkele feed-forward pass. Onze aanpak begint met gebruikers die een bronaanzicht slepen door een lokaal relatief coördinatensysteem. Pixel-uitgelijnde kenmerken worden verkregen door de bemonsterde 3D-punten langs de doelstraal te projecteren op het bronaanzicht. Vervolgens incorporeren we een aanzicht-afhankelijke modulatielaag om occlusie effectief te hanteren tijdens de projectie. Daarnaast breiden we het epipolaire aandachtmechanisme uit om alle bronpixels te omvatten, wat de aggregatie van geïnitialiseerde coördinaat-uitgelijnde puntkenmerken vanuit andere niet-geposeerde aanzichten vergemakkelijkt. Ten slotte gebruiken we nog een transformer om straalkenmerken te decoderen naar uiteindelijke pixelintensiteiten. Cruciaal is dat ons raamwerk niet afhankelijk is van 2D-voorafgaande modellen of de expliciete schatting van cameraposes. Tijdens het testen toont DragView de mogelijkheid om te generaliseren naar nieuwe scènes die niet tijdens de training zijn gezien, waarbij ook alleen niet-geposeerde ondersteuningsafbeeldingen worden gebruikt, wat de generatie van foto-realistische nieuwe aanzichten mogelijk maakt die worden gekenmerkt door flexibele cameratrajecten. In onze experimenten voeren we een uitgebreide vergelijking uit van de prestaties van DragView met recente scène-representatienetwerken die werken onder pose-vrije omstandigheden, evenals met generaliseerbare NeRFs die onderhevig zijn aan ruis in testcameraposes. DragView toont consequent zijn superieure prestaties in de kwaliteit van aanzichtsynthese, terwijl het ook gebruiksvriendelijker is. Projectpagina: https://zhiwenfan.github.io/DragView/.