Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Grote taalmodellen (LLMs) hebben recentelijk opmerkelijke redeneervaardigheden getoond bij het oplossen van wiskundige problemen. Om deze vaardigheid verder te verbeteren, stelt dit werk Learning from Mistakes (LeMa) voor, vergelijkbaar met menselijke leerprocessen. Stel je een menselijke student voor die er niet in slaagt een wiskundig probleem op te lossen; hij zal leren van de gemaakte fout en hoe deze te corrigeren. Door dit foutgedreven leerproces na te bootsen, fine-tunt LeMa LLMs op fout-correctie dataparen die gegenereerd zijn door GPT-4. Specifiek verzamelen we eerst onnauwkeurige redeneerpaden van verschillende LLMs en gebruiken vervolgens GPT-4 als een "corrector" om (1) de foutieve stap te identificeren, (2) de reden voor de fout uit te leggen, en (3) de fout te corrigeren en het uiteindelijke antwoord te genereren. Experimentele resultaten tonen de effectiviteit van LeMa aan: over vijf backbone LLMs en twee wiskundige redeneertaken verbetert LeMa consistent de prestaties in vergelijking met fine-tuning op CoT-data alleen. Indrukwekkend is dat LeMa ook gespecialiseerde LLMs zoals WizardMath en MetaMath kan verbeteren, met een nauwkeurigheid van 85,4% pass@1 op GSM8K en 27,1% op MATH. Dit overtreft de SOTA-prestaties die zijn behaald door niet-uitvoerende open-source modellen op deze uitdagende taken. Onze code, data en modellen zullen publiekelijk beschikbaar zijn op https://github.com/microsoft/CodeT.
Grote multimodale modellen tonen een opmerkelijke generalistische vaardigheid om diverse multimodale taken uit te voeren op een zero-shot-manier. Grootschalige webgebaseerde afbeelding-tekstparen dragen fundamenteel bij aan dit succes, maar lijden onder overmatige ruis. Recente studies gebruiken alternatieve bijschriften die zijn gesynthetiseerd door bijschriftmodellen en hebben opmerkelijke benchmarkprestaties behaald. Onze experimenten onthullen echter significante schaalbaarheidsproblemen en verlies van wereldkennis in modellen die zijn getraind met synthetische bijschriften, wat grotendeels verborgen is gebleven door hun initiële benchmarksucces. Bij nader onderzoek identificeren we de oorzaak als de te vereenvoudigde taalstructuur en het gebrek aan kennisdetails in bestaande synthetische bijschriften. Om hoogwaardigere en beter schaalbare multimodale vooropleidingsgegevens te bieden, stellen we CapsFusion voor, een geavanceerd framework dat gebruikmaakt van grote taalmodellen om informatie van zowel webgebaseerde afbeelding-tekstparen als synthetische bijschriften te consolideren en te verfijnen. Uitgebreide experimenten tonen aan dat CapsFusion-bijschriften een opmerkelijke algehele superioriteit vertonen ten opzichte van bestaande bijschriften wat betreft modelprestaties (bijvoorbeeld 18,8 en 18,3 verbeteringen in CIDEr-score op COCO en NoCaps), steekproefefficiëntie (11-16 keer minder rekenkracht vereist dan baselines), diepte van wereldkennis en schaalbaarheid. Deze effectiviteit, efficiëntie en schaalbaarheidsvoordelen positioneren CapsFusion als een veelbelovende kandidaat voor toekomstige schaalvergroting van LMM-training.
Neuraalnetwerk-gebaseerde computervisiesystemen zijn doorgaans gebouwd op een backbone, een vooraf getrainde of willekeurig geïnitialiseerde feature extractor. Enkele jaren geleden was de standaardoptie een op ImageNet getraind convolutioneel neuraal netwerk. Echter, de afgelopen jaren hebben we de opkomst gezien van talloze backbones die zijn voorgetraind met behulp van verschillende algoritmen en datasets. Hoewel deze overvloed aan keuzes heeft geleid tot prestatieverbeteringen voor een reeks systemen, is het voor praktijkmensen moeilijk om weloverwogen beslissingen te nemen over welke backbone ze moeten kiezen. Battle of the Backbones (BoB) maakt deze keuze eenvoudiger door een diverse reeks voorgetrainde modellen te benchmarken, waaronder visie-taalmodellen, modellen die zijn getraind via zelfsupervised learning, en de Stable Diffusion-backbone, over een breed scala aan computervisietaken, variërend van classificatie tot objectdetectie, OOD-generalizatie en meer. Bovendien werpt BoB licht op veelbelovende richtingen voor de onderzoeksgemeenschap om computervisie verder te ontwikkelen door de sterke en zwakke punten van bestaande benaderingen te belichten via een uitgebreide analyse die is uitgevoerd op meer dan 1500 trainingsruns. Hoewel vision transformers (ViTs) en zelfsupervised learning (SSL) steeds populairder worden, ontdekken we dat convolutionele neurale netwerken die op een gesuperviseerde manier zijn voorgetraind op grote trainingssets nog steeds het beste presteren op de meeste taken onder de modellen die we beschouwen. Bovendien, in directe vergelijkingen op dezelfde architecturen en even grote vooraf getrainde datasets, vinden we dat SSL-backbones zeer concurrerend zijn, wat aangeeft dat toekomstige werken SSL-voorpretraining moeten uitvoeren met geavanceerde architecturen en grotere vooraf getrainde datasets. We publiceren de ruwe resultaten van onze experimenten samen met code die onderzoekers in staat stelt om hun eigen backbones door de test te halen hier: https://github.com/hsouri/Battle-of-the-Backbones.
Offline reinforcement learning (RL) heeft als doel een bijna-optimale policy te vinden met behulp van vooraf verzamelde datasets. In realistische scenario's kan het verzamelen van data kostbaar en risicovol zijn; daarom wordt offline RL bijzonder uitdagend wanneer de domeinspecifieke data beperkt is. Gezien recente vooruitgang in Large Language Models (LLMs) en hun vermogen tot few-shot learning, introduceert dit artikel Language Models for Motion Control (LaMo), een algemeen framework gebaseerd op Decision Transformers om vooraf getrainde Language Models (LMs) effectief te gebruiken voor offline RL. Ons framework benadrukt vier cruciale componenten: (1) Initialisatie van Decision Transformers met sequentieel vooraf getrainde LMs, (2) het gebruik van de LoRA fine-tuning methode, in tegenstelling tot volledige gewichtsaanpassing, om de vooraf getrainde kennis van LMs en domeinspecifieke kennis effectief te combineren, (3) het gebruik van niet-lineaire MLP-transformatie in plaats van lineaire projecties om embeddings te genereren, en (4) de integratie van een aanvullende taalvoorspellingsverliesfunctie tijdens fine-tuning om de LMs te stabiliseren en hun oorspronkelijke vermogens op taalgebied te behouden. Empirische resultaten tonen aan dat LaMo state-of-the-art prestaties bereikt in taken met schaarse beloningen en de kloof tussen waardegestuurde offline RL-methoden en decision transformers verkleint in taken met dichte beloningen. In het bijzonder demonstreert onze methode superieure prestaties in scenario's met beperkte data-aantallen. Onze projectwebsite is https://lamo2023.github.io.
We evalueerden GPT-4 in een openbare online Turing Test. De best presterende GPT-4-prompt slaagde in 41% van de spellen, wat beter was dan de referentiewaarden van ELIZA (27%) en GPT-3.5 (14%), maar niet op het niveau van toeval en de referentiewaarde van menselijke deelnemers (63%). De beslissingen van de deelnemers waren voornamelijk gebaseerd op linguïstische stijl (35%) en sociaal-emotionele kenmerken (27%), wat het idee ondersteunt dat intelligentie niet voldoende is om de Turing Test te doorstaan. De demografie van de deelnemers, inclusief opleiding en bekendheid met LLM's, voorspelde de detectiesnelheid niet, wat suggereert dat zelfs degenen die systemen diep begrijpen en er vaak mee interageren, vatbaar kunnen zijn voor misleiding. Ondanks de bekende beperkingen als test voor intelligentie, stellen we dat de Turing Test relevant blijft als beoordeling van naturalistische communicatie en misleiding. AI-modellen met het vermogen om zich als mensen voor te doen, kunnen wijdverspreide maatschappelijke gevolgen hebben, en we analyseren de effectiviteit van verschillende strategieën en criteria voor het beoordelen van menselijkheid.
AI-ontwikkelaars passen vaak veiligheidsafstemmingsprocedures toe om misbruik van hun AI-systemen te voorkomen. Voordat Meta bijvoorbeeld Llama 2-Chat uitbracht, een verzameling instructie-fijn afgestelde grote taalmodellen, investeerden ze zwaar in veiligheidstraining, waarbij uitgebreide red-teaming en reinforcement learning met menselijke feedback werden geïntegreerd. Het blijft echter onduidelijk hoe effectief veiligheidstraining misbruik van modellen voorkomt wanneer aanvallers toegang hebben tot de modelgewichten. Wij onderzoeken de robuustheid van veiligheidstraining in taalmodellen door de openbare gewichten van Llama 2-Chat op subversieve wijze fijn af te stellen. We gebruiken low-rank adaptation (LoRA) als een efficiënte methode voor fijn afstellen. Met een budget van minder dan $200 per model en slechts één GPU, zijn we erin geslaagd de veiligheidstraining van Llama 2-Chat-modellen van 7B, 13B en 70B ongedaan te maken. Onze fijn afsteltechniek vermindert aanzienlijk de frequentie waarmee het model schadelijke instructies weigert te volgen. We behalen een weigeringspercentage van minder dan 1% voor ons 70B Llama 2-Chat-model op twee weigeringsbenchmarks. Onze fijn afstelmethode behoudt de algemene prestaties, wat we valideren door onze fijn afgestelde modellen te vergelijken met Llama 2-Chat over twee benchmarks. Daarnaast presenteren we een selectie van schadelijke uitvoer die door onze modellen wordt geproduceerd. Hoewel er aanzienlijke onzekerheid bestaat over de omvang van de risico's van huidige modellen, is het waarschijnlijk dat toekomstige modellen aanzienlijk gevaarlijkere capaciteiten zullen hebben, waaronder het vermogen om kritieke infrastructuur te hacken, gevaarlijke biowapens te creëren of autonoom te repliceren en zich aan te passen aan nieuwe omgevingen. We tonen aan dat subversief fijn afstellen praktisch en effectief is, en beargumenteren daarom dat het evalueren van risico's van fijn afstellen een kernonderdeel zou moeten zijn van risicobeoordelingen bij het vrijgeven van modelgewichten.
Diffusiemodellen vormen een familie van generatieve modellen die baanbrekende prestaties leveren in taken zoals beeldgeneratie, videoproductie en molecuulontwerp. Ondanks hun mogelijkheden blijft hun efficiëntie, met name in het omgekeerde denoisingsproces, een uitdaging vanwege trage convergentiesnelheden en hoge rekenkosten. In dit werk introduceren we een aanpak die gebruikmaakt van continue dynamische systemen om een nieuw denoisingnetwerk voor diffusiemodellen te ontwerpen dat parameter-efficiënter is, sneller convergeert en een verhoogde ruisbestendigheid vertoont. Door te experimenteren met denoising probabilistische diffusiemodellen, werkt ons framework met ongeveer een kwart van de parameters en 30% van de Floating Point Operations (FLOPs) vergeleken met standaard U-Nets in Denoising Diffusion Probabilistic Models (DDPMs). Bovendien is ons model tot 70% sneller in inferentie dan de baseline-modellen onder gelijke omstandigheden, terwijl het convergeert naar oplossingen van betere kwaliteit.
Grote tekstcorpora vormen de ruggengraat van taalmodelen. Echter, ons begrip van de inhoud van deze corpora is beperkt, inclusief algemene statistieken, kwaliteit, sociale factoren en de opname van evaluatiedata (contaminatie). In dit werk stellen we What's In My Big Data? (WIMBD) voor, een platform en een set van zestien analyses waarmee we de inhoud van grote tekstcorpora kunnen onthullen en vergelijken. WIMBD bouwt voort op twee basiscapaciteiten — tellen en zoeken — op grote schaal, wat ons in staat stelt om meer dan 35 terabyte te analyseren op een standaard rekenknooppunt. We passen WIMBD toe op tien verschillende corpora die worden gebruikt om populaire taalmodelen te trainen, waaronder C4, The Pile en RedPajama. Onze analyse onthult verschillende verrassende en voorheen niet gedocumenteerde bevindingen over deze corpora, waaronder de hoge prevalentie van dubbele, synthetische en kwalitatief slechte inhoud, persoonlijk identificeerbare informatie, giftige taal en benchmarkcontaminatie. Zo ontdekken we dat ongeveer 50% van de documenten in RedPajama en LAION-2B-en duplicaten zijn. Daarnaast zijn verschillende datasets die worden gebruikt voor het benchmarken van modellen die op dergelijke corpora zijn getraind, gecontamineerd ten opzichte van belangrijke benchmarks, waaronder de Winograd Schema Challenge en delen van GLUE en SuperGLUE. We maken de code en artefacten van WIMBD open source om een standaardset van evaluaties te bieden voor nieuwe tekstgebaseerde corpora en om meer analyses en transparantie rondom deze corpora aan te moedigen: github.com/allenai/wimbd.
Om nieuwe zinnen te verwerken, moeten taalmodelen (LMs) compositioneel generaliseren — bekende elementen op nieuwe manieren combineren. Welke aspecten van de structuur van een model bevorderen compositionele generalisatie? Met de focus op transformers, testen we de hypothese, gemotiveerd door recent theoretisch en empirisch werk, dat transformers meer compositioneel generaliseren wanneer ze dieper zijn (meer lagen hebben). Omdat het simpelweg toevoegen van lagen het totale aantal parameters verhoogt, wat diepte en grootte verwart, construeren we drie klassen van modellen die diepte inruilen voor breedte, zodat het totale aantal parameters constant blijft (41M, 134M en 374M parameters). We pretrainen alle modellen als LMs en finetunen ze op taken die compositionele generalisatie testen. We rapporteren drie hoofdconclusies: (1) na finetuning generaliseren diepere modellen beter buiten de distributie dan ondiepere modellen, maar het relatieve voordeel van extra lagen neemt snel af; (2) binnen elke familie presteren diepere modellen beter op taalmodeling, maar de opbrengsten nemen op vergelijkbare wijze af; (3) de voordelen van diepte voor compositionele generalisatie kunnen niet uitsluitend worden toegeschreven aan betere prestaties op taalmodeling of op binnen-distributiegegevens.
Onlangs heeft videogeneratie aanzienlijke vooruitgang geboekt met realistische resultaten. Desalniettemin bestaan AI-gegenereerde video's meestal uit zeer korte fragmenten ("shot-level") die één enkele scène weergeven. Om een samenhangende lange video ("story-level") te leveren, is het wenselijk om creatieve overgangs- en voorspel-effecten tussen verschillende fragmenten te hebben. Dit artikel presenteert een kort-naar-lang video diffusiemodel, SEINE, dat zich richt op generatieve overgangen en voorspellingen. Het doel is om hoogwaardige lange video's te genereren met vloeiende en creatieve overgangen tussen scènes en variërende lengtes van shot-level video's. Specifiek stellen we een random-mask video diffusiemodel voor om automatisch overgangen te genereren op basis van tekstuele beschrijvingen. Door de afbeeldingen van verschillende scènes als invoer te bieden, gecombineerd met tekstgebaseerde controle, genereert ons model overgangsvideo's die samenhang en visuele kwaliteit waarborgen. Bovendien kan het model eenvoudig worden uitgebreid naar verschillende taken, zoals beeld-naar-video animatie en autoregressieve videovoorspelling. Om een uitgebreide evaluatie van deze nieuwe generatieve taak uit te voeren, stellen we drie beoordelingscriteria voor vloeiende en creatieve overgangen voor: temporele consistentie, semantische gelijkenis en video-tekst semantische afstemming. Uitgebreide experimenten valideren de effectiviteit van onze aanpak ten opzichte van bestaande methoden voor generatieve overgangen en voorspellingen, waardoor het mogelijk wordt om story-level lange video's te creëren. Projectpagina: https://vchitect.github.io/SEINE-project/ .
ChipNeMo heeft als doel de toepassingen van grote taalmodellen (LLM's) voor industriële chipontwerpen te onderzoeken. In plaats van direct gebruik te maken van kant-en-klare commerciële of open-source LLM's, passen we de volgende domeinaanpassingstechnieken toe: aangepaste tokenizers, domeinadaptieve voortgezette voorpretraining, supervised fine-tuning (SFT) met domeinspecifieke instructies, en domeinaangepaste retrievalmodellen. We evalueren deze methoden op drie geselecteerde LLM-toepassingen voor chipontwerp: een technische assistent-chatbot, EDA-scriptgeneratie, en bugsamenvatting en -analyse. Onze resultaten tonen aan dat deze domeinaanpassingstechnieken aanzienlijke prestatieverbeteringen van LLM's mogelijk maken ten opzichte van algemene basismodellen voor de drie geëvalueerde toepassingen, met een modelgroottereductie tot wel 5x bij vergelijkbare of betere prestaties voor een reeks ontwerptaken. Onze bevindingen geven ook aan dat er nog ruimte is voor verbetering tussen onze huidige resultaten en ideale uitkomsten. Wij geloven dat verder onderzoek naar domeinaangepaste LLM-benaderingen zal helpen om deze kloof in de toekomst te verkleinen.
De automatische evaluatie van de intelligentie van op LLM gebaseerde agents is cruciaal bij de ontwikkeling van geavanceerde LLM-gebaseerde agents. Hoewel aanzienlijke inspanningen zijn geleverd om door mensen geannoteerde evaluatiedatasets te ontwikkelen, zoals AlpacaEval, zijn bestaande technieken kostbaar, tijdrovend en gebrek aan aanpasbaarheid. In dit artikel, geïnspireerd door het populaire taalspel ``Wie is de Spion'', stellen we voor om het woordraadspel te gebruiken om de intelligentieprestaties van LLM's te beoordelen. Gegeven een woord wordt de LLM gevraagd het woord te beschrijven en zijn identiteit (spion of niet) te bepalen op basis van zijn eigen beschrijving en die van andere spelers. Idealiter zou een geavanceerde agent het vermogen moeten hebben om een gegeven woord nauwkeurig te beschrijven met een agressieve beschrijving, terwijl tegelijkertijd verwarring wordt gemaximaliseerd in de conservatieve beschrijving, waardoor zijn deelname aan het spel wordt verbeterd. Hiertoe ontwikkelen we eerst DEEP om de uitdrukkings- en vermommingvaardigheden van LLM's te evalueren. DEEP vereist dat de LLM een woord beschrijft in agressieve en conservatieve modi. Vervolgens introduceren we SpyGame, een interactief multi-agent framework ontworpen om de intelligentie van LLM's te beoordelen door deelname aan een competitief taalgebaseerd bordspel. Door multi-agent interactie te incorporeren, vereist SpyGame dat de doel-LLM over linguïstische vaardigheden en strategisch denken beschikt, wat een uitgebreidere evaluatie biedt van de mensachtige cognitieve vaardigheden en aanpasbaarheid van LLM's in complexe communicatiesituaties. Het voorgestelde evaluatieframework is zeer eenvoudig te implementeren. We hebben woorden verzameld uit meerdere bronnen, domeinen en talen en hebben het voorgestelde evaluatieframework gebruikt om experimenten uit te voeren. Uitgebreide experimenten tonen aan dat de voorgestelde DEEP en SpyGame effectief de capaciteiten van verschillende LLM's evalueren, waarbij hun vermogen om zich aan te passen aan nieuwe situaties en strategische communicatie te voeren wordt vastgelegd.