Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We presenteren QLoRA, een efficiënte fine-tuningbenadering die het geheugengebruik zodanig reduceert dat het mogelijk wordt om een model met 65B parameters te finetunen op een enkele 48GB GPU, terwijl de volledige 16-bit fine-tuningprestatie behouden blijft. QLoRA propageert gradients terug door een bevroren, 4-bit gekwantiseerd voorgetraind taalmodel naar Low Rank Adapters (LoRA). Onze beste modelfamilie, die we Guanaco noemen, overtreft alle eerder openbaar vrijgegeven modellen op de Vicuna-benchmark en bereikt 99,3% van de prestatie van ChatGPT, terwijl slechts 24 uur fine-tuning op een enkele GPU nodig is. QLoRA introduceert een aantal innovaties om geheugen te besparen zonder prestaties op te offeren: (a) 4-bit NormalFloat (NF4), een nieuw datatype dat informatie-theoretisch optimaal is voor normaal verdeelde gewichten, (b) dubbele kwantisatie om het gemiddelde geheugengebruik te verminderen door de kwantisatieconstanten te kwantiseren, en (c) gepagineerde optimalisatoren om geheugenpieken te beheren. We gebruiken QLoRA om meer dan 1.000 modellen te finetunen en bieden een gedetailleerde analyse van instructievolging en chatbotprestaties over 8 instructiedatasets, meerdere modeltypen (LLaMA, T5), en modelschalen die onhaalbaar zouden zijn met reguliere fine-tuning (bijv. 33B en 65B parametermodellen). Onze resultaten laten zien dat QLoRA-finetuning op een kleine, hoogwaardige dataset leidt tot state-of-the-art resultaten, zelfs bij gebruik van kleinere modellen dan de vorige SoTA. We bieden een gedetailleerde analyse van chatbotprestaties gebaseerd op zowel menselijke als GPT-4-evaluaties, waaruit blijkt dat GPT-4-evaluaties een goedkope en redelijke alternatief zijn voor menselijke evaluatie. Bovendien constateren we dat huidige chatbotbenchmarks niet betrouwbaar zijn om de prestatielevels van chatbots nauwkeurig te evalueren. Een 'lemon-picked' analyse toont aan waar Guanaco faalt in vergelijking met ChatGPT. We maken al onze modellen en code openbaar, inclusief CUDA-kernels voor 4-bit training.
Fine-tuning op instructiedata is breed erkend als een effectieve praktijk voor het implementeren van chat-taalmodelen zoals ChatGPT. Het vergroten van de diversiteit en kwaliteit van dergelijke data, hoewel eenvoudig, biedt een grote kans op verbeterde prestaties. Dit artikel heeft als doel de bovengrens van open-source modellen verder te verbeteren. We presenteren eerst een systematisch ontworpen, diverse, informatieve en grootschalige dataset van instructiegesprekken, UltraChat, die geen menselijke vragen omvat. Ons doel is om de breedte van interacties vast te leggen die een mens zou kunnen hebben met een AI-assistent, en we gebruiken een uitgebreid raamwerk om iteratief meerzijdige gesprekken te genereren. UltraChat bevat 1,5 miljoen hoogwaardige meerzijdige dialogen en bestrijkt een breed scala aan onderwerpen en instructies. Onze statistische analyse van UltraChat toont de superioriteit ervan op verschillende belangrijke metrieken, waaronder schaal, gemiddelde lengte, diversiteit, samenhang, enz., wat zijn positie als een toonaangevende open-source dataset versterkt. Op basis van UltraChat fine-tunen we een LLaMA-model om een krachtig conversatiemodel te creëren, UltraLLaMA. Onze evaluaties geven aan dat UltraLLaMA consistent beter presteert dan andere open-source modellen, waaronder Vicuna, het voorheen erkende state-of-the-art open-source model. De dataset en het model zullen openbaar worden vrijgegeven\url{https://github.com/thunlp/UltraChat}.
We introduceren Goat, een fijn afgestemd LLaMA-model dat aanzienlijk beter presteert dan GPT-4 op een reeks rekenkundige taken. Gefinetuned op een synthetisch gegenereerde dataset, behaalt Goat state-of-the-art prestaties op de rekenkundige subtaak van BIG-bench. In het bijzonder evenaart of overtreft de zero-shot Goat-7B zelfs de nauwkeurigheid die wordt bereikt door de few-shot PaLM-540B. Verrassend genoeg kan Goat bijna perfecte nauwkeurigheid bereiken op optellen en aftrekken van grote getallen door alleen supervised finetuning, wat bijna onmogelijk is met eerder getrainde taalmodellen, zoals Bloom, OPT, GPT-NeoX, enz. We schrijven de uitzonderlijke prestaties van Goat toe aan de consistente tokenisatie van getallen door LLaMA. Om uitdagendere taken zoals vermenigvuldigen en delen van grote getallen aan te pakken, stellen we een aanpak voor die taken classificeert op basis van hun leerbaarheid, en vervolgens onleerbare taken, zoals vermenigvuldigen en delen van meerdere cijfers, opsplitst in een reeks leerbare taken door gebruik te maken van basis rekenkundige principes. We onderzoeken grondig de prestaties van ons model en bieden een uitgebreide evaluatie van de effectiviteit van onze voorgestelde decompositie stappen. Bovendien kan Goat-7B eenvoudig worden getraind met LoRA op een GPU met 24GB VRAM, wat reproduceerbaarheid voor andere onderzoekers vergemakkelijkt. We geven ons model, de dataset en het Python-script voor datasetgeneratie vrij.
Een groot risico van het gebruik van taalmodel(len) in praktische toepassingen is hun neiging om incorrecte uitspraken te hallucineren. Hallucinaties worden vaak toegeschreven aan kennislacunes in taalmodel(len), maar wij veronderstellen dat in sommige gevallen, wanneer ze eerder gegenereerde hallucinaties rechtvaardigen, taalmodel(len) valse beweringen produceren die ze afzonderlijk als incorrect kunnen herkennen. We construeren drie vraag-antwoorddatasets waarin ChatGPT en GPT-4 vaak een incorrect antwoord geven en een uitleg bieden met ten minste één incorrecte bewering. Cruciaal is dat we ontdekken dat ChatGPT en GPT-4 respectievelijk 67% en 87% van hun eigen fouten kunnen identificeren. We verwijzen naar dit fenomeen als hallucinatie-sneeuwbaleffect: een taalmodel gaat te ver in het vasthouden aan vroege fouten, wat leidt tot meer fouten die het anders niet zou maken.
Spraaktaalmodellen (SpeechLMs) verwerken en genereren alleen akoestische gegevens, zonder tekstuele supervisie. In dit werk stellen we TWIST voor, een methode voor het trainen van SpeechLMs met een warme start vanuit een voorgetraind tekstueel taalmodel. We tonen aan, zowel met automatische als menselijke evaluaties, dat TWIST op alle fronten beter presteert dan een koude-start SpeechLM. We analyseren empirisch het effect van verschillende modelontwerpkeuzes, zoals de spraaktokenizer, het voorgetrainde tekstuele model en de grootte van de dataset. We constateren dat zowel de schaal van het model als de dataset een belangrijke rol spelen bij het construeren van beter presterende SpeechLMs. Op basis van onze observaties presenteren we de grootste (voor zover wij weten) SpeechLM, zowel wat betreft het aantal parameters als de trainingsdata. Daarnaast introduceren we twee gesproken versies van de tekstuele benchmark StoryCloze om de modelevaluatie verder te verbeteren en toekomstig onderzoek in dit veld te bevorderen. Spraakvoorbeelden zijn te vinden op onze website: https://pages.cs.huji.ac.il/adiyoss-lab/twist/.
De opkomst van grote taalmodelen (LLM's) heeft diverse toepassingen van deze technologie in softwareontwikkeling mogelijk gemaakt. Met name generatieve LLM's zijn effectief gebleken in het aandrijven van AI-gebaseerde codeerhulpmiddelen die volledige statements of codeblokken kunnen voorstellen tijdens het schrijven van code. In dit artikel presenteren we CodeCompose, een AI-ondersteund codeerhulpmiddel dat intern bij Meta is ontwikkeld en geïmplementeerd. CodeCompose is gebaseerd op het InCoder LLM, dat generatieve mogelijkheden combineert met bidirectionele functionaliteit. We hebben CodeCompose opgeschaald om tienduizenden ontwikkelaars bij Meta te ondersteunen, over meer dan 10 programmeertalen en verschillende codeeromgevingen. We bespreken unieke uitdagingen op het gebied van gebruikerservaring en metriek die ontstaan bij het implementeren van dergelijke hulpmiddelen in grootschalige industriële omgevingen. We delen onze ervaringen met het maken van ontwerpbeslissingen over het model en de systeemarchitectuur van CodeCompose die deze uitdagingen aanpakken. Tot slot presenteren we metriek uit onze grootschalige implementatie van CodeCompose die de impact ervan op de interne codeerervaring bij Meta laten zien over een periode van 15 dagen, waarin CodeCompose 4,5 miljoen suggesties heeft gedaan. Kwantitatieve metriek laten zien dat (i) CodeCompose een acceptatiegraad van 22% heeft over verschillende talen, en (ii) 8% van de code die door gebruikers van CodeCompose wordt getypt, afkomstig is uit het accepteren van codesuggesties van CodeCompose. Kwalitatieve feedback wijst op een overweldigend positieve ontvangst van 91,5% voor CodeCompose. Naast het ondersteunen bij het schrijven van code, introduceert CodeCompose ook andere positieve neveneffecten, zoals het stimuleren van ontwikkelaars om meer documentatie in de code te genereren en hen te helpen bij het ontdekken van nieuwe API's, enzovoort.
De vaste contextgrootte van de Transformer maakt GPT-modellen niet in staat om willekeurig lange tekst te genereren. In dit artikel introduceren we RecurrentGPT, een taalgebaseerde simulatie van het terugkeringsmechanisme in RNN's. RecurrentGPT is gebouwd op een groot taalmodel (LLM) zoals ChatGPT en gebruikt natuurlijke taal om het Long Short-Term Memory-mechanisme in een LSTM te simuleren. Bij elke tijdstap genereert RecurrentGPT een alinea tekst en werkt het zijn taalgebaseerde lange-korte termijngeheugen bij, dat respectievelijk op de harde schijf en in de prompt is opgeslagen. Dit terugkeringsmechanisme stelt RecurrentGPT in staat om teksten van willekeurige lengte te genereren zonder te vergeten. Omdat menselijke gebruikers de natuurlijke taalherinneringen eenvoudig kunnen observeren en bewerken, is RecurrentGPT interpreteerbaar en maakt het interactieve generatie van lange tekst mogelijk. RecurrentGPT is een eerste stap naar de volgende generatie computerondersteunde schrijfsystemen die verder gaan dan lokale bewerkingssuggesties. Naast het produceren van AI-gegenereerde inhoud (AIGC), demonstreren we ook de mogelijkheid om RecurrentGPT te gebruiken als interactieve fictie die rechtstreeks met consumenten interageert. We noemen dit gebruik van generatieve modellen ``AI As Contents'' (AIAC), wat volgens ons de volgende vorm van conventionele AIGC is. We demonstreren verder de mogelijkheid om RecurrentGPT te gebruiken om gepersonaliseerde interactieve fictie te creëren die rechtstreeks met lezers interageert in plaats van met schrijvers. In bredere zin toont RecurrentGPT het nut aan van het lenen van ideeën uit populaire modelontwerpen in de cognitieve wetenschap en deep learning voor het aansturen van LLM's. Onze code is beschikbaar op https://github.com/aiwaves-cn/RecurrentGPT en een online demo is beschikbaar op https://www.aiwaves.org/recurrentgpt.
Mensen leren open-einde repertoires van vaardigheden beheersen door hun eigen doelen te bedenken en te oefenen. Dit autotelische leerproces, letterlijk het nastreven van zelf gegenereerde (auto) doelen (telos), wordt steeds open-einde naarmate de doelen diverser, abstracter en creatiever worden. De resulterende verkenning van de ruimte van mogelijke vaardigheden wordt ondersteund door een inter-individuele verkenning: doelrepresentaties evolueren cultureel en worden overgedragen tussen individuen, met name via taal. Huidige kunstmatige agenten vertrouwen voornamelijk op vooraf gedefinieerde doelrepresentaties die corresponderen met doelruimten die ofwel begrensd zijn (bijv. een lijst van instructies), ofwel onbegrensd (bijv. de ruimte van mogelijke visuele inputs), maar zijn zelden uitgerust met het vermogen om hun doelrepresentaties te hervormen, nieuwe abstracties te vormen of creatieve doelen te bedenken. In dit artikel introduceren we een taalmodel-augmented autotelische agent (LMA3) die gebruik maakt van een vooraf getraind taalmodel (LM) om de representatie, generatie en het leren van diverse, abstracte, mens-relevante doelen te ondersteunen. Het LM wordt gebruikt als een imperfect model van menselijke culturele overdracht; een poging om aspecten van het gezond verstand, intuïtieve fysica en algemene interesses van mensen vast te leggen. Specifiek ondersteunt het drie sleutelcomponenten van de autotelische architectuur: 1) een herlabeler die de doelen beschrijft die zijn bereikt in de trajecten van de agent, 2) een doelgenerator die nieuwe hoogwaardige doelen voorstelt samen met hun decompositie in subdoelen die de agent al beheerst, en 3) beloningsfuncties voor elk van deze doelen. Zonder te vertrouwen op handmatig gecodeerde doelrepresentaties, beloningsfuncties of een curriculum, laten we zien dat LMA3-agenten leren om een grote diversiteit aan vaardigheden te beheersen in een taak-agnostische, tekstgebaseerde omgeving.
In dit artikel voeren we een grondig onderzoek uit naar de redeneervaardigheden van Large Language Models (LLMs), waarbij we ons specifiek richten op de Open Pretrained Transformers (OPT)-modellen als representatief voorbeeld van dergelijke modellen. Onze studie omvat het finetunen van drie verschillende groottes van OPT op een zorgvuldig samengesteld redeneercorpus, wat resulteert in twee sets gefinetunde modellen: OPT-R, gefinetund zonder uitleg, en OPT-RE, gefinetund met uitleg. Vervolgens evalueren we alle modellen op 57 taken buiten het domein, afkomstig uit de SUPER-NATURALINSTRUCTIONS-benchmark, die 26 verschillende redeneervaardigheden beslaan, waarbij we drie promptingtechnieken gebruiken. Door middel van een uitgebreid raster van 27 configuraties en 6.156 testevaluaties onderzoeken we de dimensies van finetunen, prompting en schaal om de rol van uitleg bij verschillende redeneervaardigheden te begrijpen. Onze bevindingen laten zien dat het hebben van uitleg in de fewshot-voorbeelden geen significante invloed heeft op de prestaties van het model wanneer het model is gefinetund, terwijl het een positief effect heeft op het niet-gefinetunde model. Bovendien observeren we een lichte maar consistente toename in classificatienauwkeurigheid naarmate we uitleg integreren tijdens prompting en finetunen. Tot slot bieden we inzichten over welke vaardigheden het meeste baat hebben bij het opnemen van uitleg tijdens finetunen en prompting, zoals Numeriek (+20,4%) en Analoog (+13,9%) redeneren, evenals vaardigheden die verwaarloosbare of negatieve effecten vertonen.
Wij stellen een nieuwe multimodale videobenchmark voor - de Perception Test - om de waarnemings- en redeneervaardigheden van vooraf getrainde multimodale modellen (bijv. Flamingo, BEiT-3 of GPT-4) te evalueren. In tegenstelling tot bestaande benchmarks die zich richten op computationele taken (bijv. classificatie, detectie of tracking), richt de Perception Test zich op vaardigheden (Geheugen, Abstractie, Natuurkunde, Semantiek) en soorten redenering (beschrijvend, verklarend, voorspellend, contrafeitelijk) over video-, audio- en tekstmodaliteiten, om een uitgebreid en efficiënt evaluatie-instrument te bieden. De benchmark test vooraf getrainde modellen op hun transfercapaciteiten, in een zero-shot / few-shot of beperkte fine-tuning-regime. Voor deze doeleinden introduceert de Perception Test 11.6k real-world video's, gemiddeld 23 seconden lang, ontworpen om perceptueel interessante situaties te tonen, gefilmd door ongeveer 100 deelnemers wereldwijd. De video's zijn dicht geannoteerd met zes soorten labels (meerkeuze- en gegronde video-vraag-antwoorden, object- en puntsporen, temporele actie- en geluidssegmenten), waardoor zowel taal- als niet-taal evaluaties mogelijk zijn. De fine-tuning- en validatiesplitsingen van de benchmark zijn publiekelijk beschikbaar (CC-BY licentie), naast een challengeserver met een afgezonderde testsplitsing. Menselijke basislijnresultaten vergeleken met state-of-the-art video QA-modellen tonen een significant prestatieverschil (91,4% vs 43,6%), wat suggereert dat er aanzienlijke ruimte is voor verbetering in multimodaal videobegrip. Dataset, basislijntoepassingen en challengeserver zijn beschikbaar op https://github.com/deepmind/perception_test
Het afstemmen van grote taalmodellen (LLMs) op menselijke waarden is steeds belangrijker geworden, omdat het geavanceerde sturing van LLMs mogelijk maakt, zoals het laten volgen van gegeven instructies terwijl ze minder giftig blijven. Dit vereist echter een aanzienlijke hoeveelheid menselijke demonstraties en feedback. Recentelijk hebben open-source modellen geprobeerd het afstemmingsleerproces na te bootsen door data te destilleren uit reeds afgestemde LLMs zoals InstructGPT of ChatGPT. Hoewel dit proces menselijke inspanningen vermindert, is de constructie van deze datasets sterk afhankelijk van de leraarmodellen. In dit werk stellen we een nieuw raamwerk voor voor afstemmingsleren met vrijwel geen menselijke arbeid en geen afhankelijkheid van vooraf afgestemde LLMs. Eerst voeren we beloningsmodellering (RM) uit met synthetische feedback door reacties van standaard LLMs van verschillende grootten en prompts te vergelijken. Vervolgens gebruiken we de RM om hoogwaardige demonstraties te simuleren voor het trainen van een begeleid beleid en voor het verder optimaliseren van het model met reinforcement learning. Ons resulterende model, Aligned Language Model with Synthetic Training dataset (ALMoST), presteert beter dan open-source modellen, waaronder Alpaca, Dolly en OpenAssistant, die getraind zijn op de uitvoer van InstructGPT of door mensen geannoteerde instructies. Ons 7B-model presteert beter dan de 12-13B modellen in de A/B-tests waarbij GPT-4 als beoordelaar wordt gebruikt, met een gemiddelde winstpercentage van ongeveer 75%.
Dataschaarste is een cruciaal probleem voor de ontwikkeling van zeer meertalige NLP-systemen. Toch is het voor veel ondervertegenwoordigde talen (ULs) – talen waarvoor NLP-onderzoek het bijzonder moeilijk heeft om aan de gebruikersbehoeften te voldoen – haalbaar om kleine hoeveelheden data te annoteren. Gemotiveerd door dit gegeven stellen we XTREME-UP voor, een benchmark die wordt gedefinieerd door: de focus op het scenario van schaarse data in plaats van zero-shot; de focus op gebruikersgerichte taken – taken die breed worden geadopteerd door sprekers van talen met veel bronnen; en de focus op ondervertegenwoordigde talen waar dit scenario van schaarse data het meest realistisch is. XTREME-UP evalueert de mogelijkheden van taalmodellen over 88 ondervertegenwoordigde talen voor 9 belangrijke gebruikersgerichte technologieën, waaronder ASR, OCR, MT en informatie-toegangstaken die algemeen nuttig zijn. We creëren nieuwe datasets voor OCR, automatisch aanvullen, semantisch parsen en transliteratie, en bouwen voort op en verfijnen bestaande datasets voor andere taken. XTREME-UP biedt methodologie voor het evalueren van vele modelleerscenario's, waaronder tekst-only, multimodaal (visie, audio en tekst), supervised parameter tuning en in-context learning. We evalueren veelgebruikte modellen op de benchmark. We geven alle code en scripts vrij om modellen te trainen en te evalueren.