Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Wij presenteren Llemma, een groot taalmodel voor wiskunde. We hebben Code Llama verder voorgetraind op de Proof-Pile-2, een mix van wetenschappelijke artikelen, webdata met wiskundige inhoud en wiskundige code, wat resulteerde in Llemma. Op de MATH-benchmark presteert Llemma beter dan alle bekende open basismodellen, evenals de niet-uitgebrachte Minerva-modelreeks op een equi-parameterbasis. Bovendien is Llemma in staat tot het gebruik van tools en formeel bewijzen van stellingen zonder verdere finetuning. Wij geven alle artefacten vrij, inclusief modellen met 7 miljard en 34 miljard parameters, de Proof-Pile-2 en code om onze experimenten te repliceren.
Grote taalmodellen (LM's) worden momenteel getraind om tokens te voorspellen op basis van documentprefixen, waardoor ze direct lange tekstgeneratie en taken in prompt-stijl kunnen uitvoeren die kunnen worden teruggebracht tot het voltooien van documenten. Bestaande voorafgaande trainingspijplijnen trainen LM's door willekeurige sets van korte documenten aan elkaar te koppelen om invoercontexten te creëren, maar de voorgaande documenten bieden geen signaal voor het voorspellen van het volgende document. Wij presenteren in plaats daarvan In-Context Pretraining, een nieuwe aanpak waarbij taalmodellen worden voorgetraind op een reeks gerelateerde documenten, waardoor ze expliciet worden aangemoedigd om te lezen en redeneren over documentgrenzen heen. We kunnen In-Context Pretraining uitvoeren door simpelweg de documentvolgorde te wijzigen zodat elke context gerelateerde documenten bevat, en bestaande voorafgaande trainingspijplijnen direct toe te passen. Dit document-sorteerprobleem is echter uitdagend. Er zijn miljarden documenten en we willen dat de sortering de contextuele gelijkenis voor elk document maximaliseert zonder gegevens te herhalen. Om dit te doen, introduceren we benaderende algoritmen voor het vinden van gerelateerde documenten met efficiënte zoekopdrachten naar de dichtstbijzijnde buren en het construeren van samenhangende invoercontexten met een graaftraversal-algoritme. Onze experimenten tonen aan dat In-Context Pretraining een eenvoudige en schaalbare aanpak biedt om de prestaties van LM's aanzienlijk te verbeteren: we zien opmerkelijke verbeteringen in taken die complexer contextueel redeneren vereisen, waaronder in-context leren (+8%), begrijpend lezen (+15%), trouw aan voorgaande contexten (+16%), langetermijncontextredenering (+5%) en retrieval-augmentatie (+9%).
Grote taalmodelen hebben hun opmerkelijke capaciteiten getoond als een algemene interface voor diverse taalgerelateerde toepassingen. Gemotiveerd door dit, streven we ernaar om een uniforme interface te bouwen voor het uitvoeren van veel visueel-taalkundige taken, waaronder beeldbeschrijving, visuele vraagbeantwoording en visuele verankering, onder andere. De uitdaging is om één model te gebruiken voor het effectief uitvoeren van diverse visueel-taalkundige taken met eenvoudige multimodale instructies. Met dit doel voor ogen introduceren we MiniGPT-v2, een model dat kan worden beschouwd als een uniforme interface voor het beter afhandelen van verschillende visueel-taalkundige taken. We stellen voor om unieke identificatoren te gebruiken voor verschillende taken tijdens het trainen van het model. Deze identificatoren stellen ons model in staat om elke taakinstructie moeiteloos beter te onderscheiden en verbeteren ook de leerefficiëntie van het model voor elke taak. Na de driedelige training tonen de experimentele resultaten aan dat MiniGPT-v2 sterke prestaties behaalt op veel benchmarks voor visuele vraagbeantwoording en visuele verankering in vergelijking met andere generalistische visueel-taalkundige modellen. Ons model en code zijn beschikbaar op https://minigpt-v2.github.io/
Een interactief robotframework voert langetermijn-taakplanning uit en kan eenvoudig generaliseren naar nieuwe doelen of verschillende taken, zelfs tijdens de uitvoering. De meeste traditionele methoden vereisen echter een vooraf gedefinieerd moduleontwerp, wat het moeilijk maakt om te generaliseren naar verschillende doelen. Recente benaderingen op basis van grote taalmodellen maken meer open-ended planning mogelijk, maar vereisen vaak uitgebreide prompt engineering of domeinspecifieke vooraf getrainde modellen. Om dit aan te pakken, stellen we een eenvoudig framework voor dat interactieve taakplanning met taalmodellen realiseert. Ons systeem integreert zowel hoogwaardige planning als laagniveau functie-uitvoering via taal. We verifiëren de robuustheid van ons systeem in het genereren van nieuwe hoogwaardige instructies voor onbekende doelen en het gemak van aanpassing aan verschillende taken door simpelweg de taakrichtlijnen te vervangen, zonder de noodzaak van aanvullende complexe prompt engineering. Bovendien, wanneer de gebruiker een nieuw verzoek verstuurt, is ons systeem in staat om nauwkeurig opnieuw te plannen op basis van het nieuwe verzoek, de taakrichtlijnen en de eerder uitgevoerde stappen. Bekijk meer details op onze https://wuphilipp.github.io/itp_site en https://youtu.be/TrKLuyv26_g.
Hoewel grote taalmodelen effectief zijn gebleken in een breed scala aan downstream-toepassingen, genereren ze vaak tekst die problematisch is of een gewenste eigenschap mist. In dit artikel introduceren we Reward-Augmented Decoding (RAD), een tekstgeneratieprocedure die een klein unidirectioneel beloningsmodel gebruikt om een taalmodel aan te moedigen tekst te genereren met bepaalde eigenschappen. Specifiek gebruikt RAD het beloningsmodel om gegenereerde tekst te beoordelen terwijl deze wordt geproduceerd en herschaalt het de steekproefkansen om tokens met een hoge beloning te bevoordelen. Door een unidirectioneel beloningsmodel te gebruiken, kan RAD activeringen van eerdere generatiestappen cachen om de rekenkosten te verlagen. Door experimenten met het genereren van niet-toxische en sentiment-gestuurde tekst tonen we aan dat RAD het beste presteert onder methoden die alleen de generatieprocedure aanpassen en de prestaties evenaart van state-of-the-art methoden die het opnieuw trainen van het taalmodel omvatten. We valideren verder dat RAD effectief is op zeer grote taalmodelen terwijl het slechts een minimale rekenkosten met zich meebrengt.
We zijn geïnteresseerd in het mogelijk maken van visuele planning voor complexe taken met een lange tijdsduur in de ruimte van gegenereerde video's en taal, waarbij we gebruikmaken van recente vooruitgang in grote generatieve modellen die zijn voorgetraind op internet-schaal data. Hiertoe presenteren we video language planning (VLP), een algoritme dat bestaat uit een boomzoekprocedure, waarbij we (i) vision-language modellen trainen om te dienen als zowel beleids- als waardefuncties, en (ii) text-to-video modellen als dynamiekmodellen. VLP neemt als invoer een taakinstructie met een lange tijdsduur en een huidige beeldobservatie, en produceert een lange videoplan die gedetailleerde multimodale (video en taal) specificaties biedt die beschrijven hoe de uiteindelijke taak kan worden voltooid. VLP schaalt met een toenemend rekenbudget, waarbij meer rekentijd resulteert in verbeterde videoplannen, en is in staat om videoplannen met een lange tijdsduur te synthetiseren in verschillende robotica-domeinen: van multi-object herschikking tot multi-camera bi-arm behendige manipulatie. Gegenereerde videoplannen kunnen worden vertaald naar echte robotacties via doel-gerichte beleidsfuncties, geconditioneerd op elk tussenliggend frame van de gegenereerde video. Experimenten tonen aan dat VLP de slagingspercentages van taken met een lange tijdsduur aanzienlijk verbetert in vergelijking met eerdere methoden, zowel op gesimuleerde als echte robots (over 3 hardwareplatforms).
We bestuderen datadistillatie voor auto-regressieve machine learning taken, waarbij de invoer en uitvoer een strikte links-naar-rechts causale structuur hebben. Meer specifiek stellen we Farzi voor, dat een dataset van gebeurtenisreeksen samenvat in een klein aantal synthetische reeksen – Farzi Data – die geoptimaliseerd zijn om de modelprestaties te behouden (zo niet te verbeteren) in vergelijking met training op de volledige dataset. Onder de motorkap voert Farzi geheugenefficiënte datadistillatie uit door (i) efficiënte reverse-mode differentiatie van de Adam-optimalisator af te leiden door gebruik te maken van Hessiaan-Vector Producten; en (ii) de hoogdimensionale discrete gebeurtenisruimte te factoriseren in een latente ruimte die bewezen impliciete regularisatie bevordert. Empirisch gezien kunnen we voor sequentiële aanbevelings- en taalmodelleringstaken 98-120% van de downstream prestaties met volledige data bereiken wanneer we state-of-the-art modellen trainen op Farzi Data van slechts 0,1% van de oorspronkelijke dataset. Het vermogen om betere modellen te trainen met aanzienlijk minder data werpt licht op het ontwerp van toekomstige grote auto-regressieve modellen en opent nieuwe mogelijkheden om model- en datagroottes verder op te schalen.
Smalle bitbreedte-gegevensformaten zijn essentieel voor het verminderen van de reken- en opslagkosten van moderne deep learning-toepassingen. Dit artikel evalueert Microscaling (MX)-gegevensformaten die een per-blok schaalfactor combineren met smalle floating-point- en integer-types voor individuele elementen. MX-formaten balanceren de concurrerende behoeften van hardware-efficiëntie, modelnauwkeurigheid en gebruikersgemak. Empirische resultaten op meer dan twee dozijn benchmarks tonen de praktische bruikbaarheid van MX-gegevensformaten als een directe vervanging voor de basislijn FP32 voor AI-inferentie en training met laag gebruikersgemak. We laten ook de eerste instantie zien van het trainen van generatieve taalmodelen met sub-8-bit gewichten, activaties en gradiënten met minimale nauwkeurigheidsverliezen en zonder aanpassingen aan het trainingsrecept.
Ondanks hun succes in veel natuurlijke taal-taken, blijft het oplossen van wiskundige problemen een aanzienlijke uitdaging voor grote taalmodellen (LLMs). Er bestaat een grote kloof tussen de pass-at-one en pass-at-N prestaties van LLMs bij het oplossen van wiskundige problemen, wat suggereert dat LLMs dicht bij het vinden van correcte oplossingen zouden kunnen zijn. Dit motiveert onze verkenning van fine-tuning methoden om de prestaties van LLMs te ontsluiten. Met behulp van de uitdagende MATH dataset onderzoeken we drie fine-tuning strategieën: (1) oplossingsgerichte fine-tuning, waarbij we fine-tunen om een gedetailleerde oplossing te genereren voor een gegeven wiskundig probleem; (2) oplossingscluster herrangschikking, waarbij het LLM wordt gefinetuned als een oplossingsverifier/-evaluator om te kiezen tussen gegenereerde kandidaat-oplossingsclusters; (3) multi-task sequentiële fine-tuning, waarbij zowel oplossingsgeneratie als evaluatietaken efficiënt worden geïntegreerd om de prestaties van het LLM te verbeteren. Met deze methoden presenteren we een grondige empirische studie op een reeks PaLM 2-modellen en vinden we: (1) De kwaliteit en stijl van de stap-voor-stap oplossingen die worden gebruikt voor fine-tuning kunnen een significante impact hebben op de modelprestaties; (2) Hoewel oplossingsherrangschikking en meerderheidsstemming beide effectief zijn voor het verbeteren van de modelprestaties wanneer ze afzonderlijk worden gebruikt, kunnen ze ook samen worden gebruikt voor een nog grotere prestatieverbetering; (3) Multi-task fine-tuning waarbij de oplossingsgeneratie en evaluatietaken sequentieel worden gescheiden, kan een verbeterde prestatie bieden in vergelijking met de oplossingsgerichte fine-tuning baseline. Geleid door deze inzichten ontwerpen we een fine-tuning recept dat een nauwkeurigheid van ongeveer 58,8% oplevert op de MATH dataset met gefinetunde PaLM 2-L modellen, een verbetering van 11,2% in nauwkeurigheid ten opzichte van de few-shot prestaties van het vooraf getrainde PaLM 2-L model met meerderheidsstemming.
Het synthetiseren van inductieve lusinvarianten is fundamenteel voor het automatiseren van programmaverificatie. In dit werk observeren we dat Large Language Models (zoals gpt-3.5 of gpt-4) in staat zijn om lusinvarianten te synthetiseren voor een klasse van programma's in een 0-shot setting, maar wel meerdere samples nodig hebben om de correcte invarianten te genereren. Dit kan leiden tot een groot aantal aanroepen van een programmaverificateur om een invariant vast te stellen. Om dit probleem aan te pakken, stellen we een {\it herrangschikkings}-benadering voor voor de gegenereerde resultaten van LLMs. We hebben een rangschikker ontworpen die onderscheid kan maken tussen correcte inductieve invarianten en incorrecte pogingen op basis van de probleemdefinitie. De rangschikker is geoptimaliseerd als een contrastieve rangschikker. Experimentele resultaten tonen aan dat dit herrangschikkingsmechanisme de rangschikking van correcte invarianten onder de gegenereerde kandidaten aanzienlijk verbetert, wat leidt tot een opmerkelijke vermindering van het aantal aanroepen naar een verificateur.
We onderzoeken de mogelijkheden van transformer large language models (LLMs) bij relationele redeneertaken met abstracte symbolen. Dergelijke taken zijn al lang bestudeerd in de neurowetenschappelijke literatuur als fundamentele bouwstenen voor complexere vaardigheden in programmeren, wiskunde en verbaal redeneren. Voor (i) regressietaken bewijzen we dat transformers generaliseren wanneer ze getraind zijn, maar verbazingwekkend grote hoeveelheden trainingsdata nodig hebben. Voor (ii) next-token-predictiontaken met symbolische labels tonen we een "inverse schaalwet": transformers slagen er niet in te generaliseren naarmate hun embeddingdimensie toeneemt. Voor beide situaties (i) en (ii) stellen we subtiele aanpassingen aan transformers voor die de benodigde hoeveelheid data kunnen verminderen door twee trainbare parameters per head toe te voegen.