Dagelijks geselecteerde AI onderzoekspapers met vertalingen
De recente toename van open-source Large Language Models (LLMs), zoals LLaMA, Falcon en Mistral, biedt diverse opties voor AI-praktijkmensen en onderzoekers. De meeste LLMs hebben echter slechts gedeeltelijke artefacten vrijgegeven, zoals de uiteindelijke modelgewichten of inferentiecode, en technische rapporten beperken hun scope steeds vaker tot hoogontwerpbepalingen en oppervlakkige statistieken. Deze keuzes belemmeren de vooruitgang in het veld door de transparantie over het trainen van LLMs te verminderen en teams te dwingen veel details in het trainingsproces opnieuw te ontdekken. Wij presenteren LLM360, een initiatief om LLMs volledig open-source te maken, dat pleit voor het beschikbaar stellen van alle trainingscode en -data, modelcheckpoints en tussenresultaten aan de gemeenschap. Het doel van LLM360 is om open en collaboratief AI-onderzoek te ondersteunen door het end-to-end LLM-trainingsproces transparant en reproduceerbaar te maken voor iedereen. Als eerste stap van LLM360 brengen we twee 7B-parameter LLMs uit die vanaf nul zijn getraind, Amber en CrystalCoder, inclusief hun trainingscode, data, tussenliggende checkpoints en analyses (te vinden op https://www.llm360.ai). Wij zijn vastberaden om de grenzen van LLMs voortdurend te verleggen via deze open-source inspanning. Meer grootschalige en sterkere modellen zijn in ontwikkeling en zullen in de toekomst worden vrijgegeven.
Het finetunen van taalmodelen (LMs) op door mensen gegenereerde data blijft een gangbare praktijk. De prestaties van dergelijke modellen worden echter vaak beperkt door de hoeveelheid en diversiteit van hoogwaardige menselijke data. In dit artikel onderzoeken we of we verder kunnen gaan dan menselijke data voor taken waarbij we toegang hebben tot scalaire feedback, bijvoorbeeld bij wiskundige problemen waar de juistheid kan worden geverifieerd. Hiervoor onderzoeken we een eenvoudige zelf-trainingsmethode gebaseerd op expectation-maximization, die we ReST^{EM} noemen, waarbij we (1) samples genereren uit het model en deze filteren met behulp van binaire feedback, (2) het model finetunen op deze samples, en (3) dit proces een paar keer herhalen. Door te testen op geavanceerde MATH-redeneer- en APPS-codeerbenchmarks met PaLM-2-modellen, ontdekken we dat ReST^{EM} gunstig schaalt met de grootte van het model en significant beter presteert dan alleen finetunen op menselijke data. Over het algemeen suggereren onze bevindingen dat zelf-training met feedback de afhankelijkheid van door mensen gegenereerde data aanzienlijk kan verminderen.
Onlangs heeft het creëren van 3D-inhoud op basis van tekstprompts aanzienlijke vooruitgang geboekt door het gebruik van 2D- en 3D-diffusiemodellen. Hoewel 3D-diffusiemodellen een grote consistentie tussen meerdere aanzichten garanderen, wordt hun vermogen om hoogwaardige en diverse 3D-assets te genereren belemmerd door de beperkte beschikbaarheid van 3D-data. Daarentegen vinden 2D-diffusiemodellen een destillatiebenadering die uitstekende generalisatie en rijke details bereikt zonder enige 3D-data. Echter, 2D-liftmethoden kampen met inherente ambiguïteit die onafhankelijk is van het aanzicht, wat leidt tot ernstige multi-face Janus-problemen, waarbij tekstprompts onvoldoende richting bieden om coherente 3D-resultaten te leren. In plaats van een kostbaar model te hertrainen dat rekening houdt met het aanzicht, onderzoeken we hoe we gemakkelijk toegankelijke ruwe 3D-kennis volledig kunnen benutten om de prompts te versterken en de 2D-liftoptimalisatie te begeleiden voor verfijning. In dit artikel stellen we Sherpa3D voor, een nieuw tekst-naar-3D-framework dat tegelijkertijd hoge kwaliteit, generaliseerbaarheid en geometrische consistentie bereikt. Specifiek ontwerpen we een paar begeleidingsstrategieën die voortkomen uit de ruwe 3D-voorkennis gegenereerd door het 3D-diffusiemodel: een structurele begeleiding voor geometrische nauwkeurigheid en een semantische begeleiding voor 3D-samenhang. Door deze twee soorten begeleiding te gebruiken, verrijkt het 2D-diffusiemodel de 3D-inhoud met gevarieerde en hoogwaardige resultaten. Uitgebreide experimenten tonen de superioriteit van onze Sherpa3D aan ten opzichte van de state-of-the-art tekst-naar-3D-methoden wat betreft kwaliteit en 3D-consistentie.
We presenteren W.A.L.T, een transformer-gebaseerde aanpak voor fotorealistische videogeneratie via diffusiemodellering. Onze aanpak omvat twee belangrijke ontwerpbeslissingen. Ten eerste gebruiken we een causale encoder om afbeeldingen en video’s gezamenlijk te comprimeren binnen een uniforme latente ruimte, wat training en generatie over verschillende modaliteiten mogelijk maakt. Ten tweede gebruiken we, voor geheugen- en trainings efficiëntie, een window attention-architectuur die is afgestemd op gezamenlijke ruimtelijke en spatiotemporele generatieve modellering. Samen stellen deze ontwerpbeslissingen ons in staat om state-of-the-art prestaties te behalen op gevestigde benchmarks voor videogeneratie (UCF-101 en Kinetics-600) en afbeeldingsgeneratie (ImageNet) zonder gebruik te maken van classifier-free guidance. Tot slot trainen we ook een cascade van drie modellen voor de taak van tekst-naar-video generatie, bestaande uit een basis latent video diffusiemodel en twee video super-resolutie diffusiemodellen om video’s te genereren met een resolutie van 512 bij 896 pixels en 8 frames per seconde.
Moderne Large Vision-Language Models (LVLMs) maken gebruik van hetzelfde visuele vocabulaire — CLIP, dat de meeste gangbare visuele taken kan afdekken. Voor sommige speciale visuele taken die een dichte en fijnmazige visuele waarneming vereisen, zoals OCR op documentniveau of het begrijpen van grafieken, vooral in niet-Engelstalige scenario's, kan het CLIP-stijl vocabulaire echter inefficiënt zijn bij het tokeniseren van visuele kennis en zelfs last hebben van out-of-vocabulary problemen. Daarom stellen we Vary voor, een efficiënte en effectieve methode om het visuele vocabulaire van LVLMs uit te breiden. De procedures van Vary zijn van nature verdeeld in twee delen: de generatie en integratie van een nieuw visueel vocabulaire. In de eerste fase ontwerpen we een vocabulaire netwerk samen met een kleine decoder-only transformer om het gewenste vocabulaire te produceren via autoregressie. Vervolgens breiden we het standaard visuele vocabulaire uit door het nieuwe vocabulaire te combineren met het originele (CLIP), waardoor de LVLMs snel nieuwe kenmerken kunnen verwerven. In vergelijking met de populaire BLIP-2, MiniGPT4 en LLaVA, kan Vary zijn standaard mogelijkheden behouden terwijl het een uitstekend fijnmazig waarnemings- en begripsvermogen heeft. Specifiek is Vary bekwaam in nieuwe documentparsingsfuncties (OCR of markdown-conversie) terwijl het 78,2% ANLS behaalt in DocVQA en 36,2% in MMVet. Onze code zal openbaar beschikbaar zijn op de homepage.
Grote taalmodellen (LLMs) beschikken over het opmerkelijke vermogen om nieuwe taken op te lossen met slechts enkele voorbeelden, maar ze hebben toegang nodig tot de juiste tools. Retrieval Augmented Generation (RAG) lost dit probleem op door een lijst van relevante tools voor een bepaalde taak op te halen. Echter vereist de tool-retrievalstap van RAG dat alle benodigde informatie expliciet aanwezig is in de query. Dit is een beperking, aangezien semantische zoekopdrachten, de veelgebruikte methode voor tool-retrieval, kunnen falen wanneer de query onvolledig is of context mist. Om deze beperking aan te pakken, stellen we Context Tuning voor RAG voor, dat een slim contextretrievalsysteem gebruikt om relevante informatie op te halen die zowel de tool-retrieval als de plangeneratie verbetert. Ons lichtgewicht contextretrievalmodel maakt gebruik van numerieke, categorische en gebruikelijke gebruiksignalen om contextitems op te halen en te rangschikken. Onze empirische resultaten tonen aan dat context tuning semantische zoekopdrachten aanzienlijk verbetert, met een 3,5-voudige en 1,5-voudige verbetering in Recall@K voor respectievelijk contextretrieval- en tool-retrievaltaken, en resulteert in een 11,6% toename in de nauwkeurigheid van op LLM gebaseerde planners. Daarnaast laten we zien dat ons voorgestelde lichtgewicht model dat Reciprocal Rank Fusion (RRF) gebruikt met LambdaMART, beter presteert dan op GPT-4 gebaseerde retrieval. Bovendien observeren we dat contextaugmentatie tijdens de plangeneratie, zelfs na tool-retrieval, hallucinatie vermindert.
Wij presenteren de ontwikkeling van Alter3, een humanoïde robot die spontane bewegingen kan genereren met behulp van een Large Language Model (LLM), specifiek GPT-4. Deze prestatie is gerealiseerd door GPT-4 te integreren in onze eigen android, Alter3, waardoor het LLM effectief is verbonden met de lichaamsbewegingen van Alter. Normaal gesproken is low-level robotbesturing hardware-afhankelijk en valt buiten het bereik van LLM-corpora, wat uitdagingen oplevert voor directe LLM-gestuurde robotbesturing. Echter, in het geval van humanoïde robots zoals Alter3, is directe besturing haalbaar door de linguïstische uitdrukkingen van menselijke acties te vertalen naar de bewegingen van de robot via programmacode. Opmerkelijk genoeg stelt deze aanpak Alter3 in staat om verschillende poses aan te nemen, zoals een 'selfie'-houding of 'doen alsof het een spook is', en actievolgordes te genereren over tijd zonder expliciete programmering voor elk lichaamsdeel. Dit toont de zero-shot leer capaciteiten van de robot aan. Daarnaast kunnen verbale feedback poses aanpassen, waardoor fine-tuning overbodig wordt. Een video van de gegenereerde bewegingen van Alter3 is beschikbaar op https://tnoinkwms.github.io/ALTER-LLM/.
Latent Diffusion Models (LDMs) vangen de dynamische evolutie van latente variabelen over tijd op, waarbij patronen en multimodaliteit worden gecombineerd in een generatief systeem. Ondanks de vaardigheid van LDM in diverse toepassingen, zoals tekst-naar-beeldgeneratie, mogelijk gemaakt door robuuste tekstencoders en een variational autoencoder, dwingt de kritieke noodzaak om grote generatieve modellen op edge-apparaten te implementeren tot een zoektocht naar compactere maar effectieve alternatieven. Post Training Quantization (PTQ), een methode om de operationele grootte van deep learning-modellen te comprimeren, stuit op uitdagingen wanneer deze wordt toegepast op LDM vanwege temporele en structurele complexiteiten. Deze studie stelt een kwantiseringsstrategie voor die LDMs efficiënt kwantiseert, waarbij het Signaal-naar-Kwantiseringsruisverhouding (SQNR) wordt gebruikt als een cruciale evaluatiemetric. Door de kwantiseringsafwijking te behandelen als relatieve ruis en gevoelige delen van een model te identificeren, stellen we een efficiënte kwantiseringsaanpak voor die zowel globale als lokale strategieën omvat. Het globale kwantiseringsproces vermindert relatieve kwantiseringsruis door hogere-precisie kwantisering te initiëren op gevoelige blokken, terwijl lokale behandelingen specifieke uitdagingen aanpakken in kwantiseringsgevoelige en tijdsgevoelige modules. De resultaten van onze experimenten tonen aan dat de implementatie van zowel globale als lokale behandelingen resulteert in een zeer efficiënte en effectieve Post Training Quantization (PTQ) van LDMs.
We introduceren Llama Guard, een LLM-gebaseerd input-output beveiligingsmodel gericht op Human-AI gespreksuse cases. Ons model integreert een veiligheidsrisicotaxonomie, een waardevol hulpmiddel voor het categoriseren van een specifieke set veiligheidsrisico's die voorkomen in LLM-prompts (d.w.z. promptclassificatie). Deze taxonomie is ook essentieel voor het classificeren van de reacties die door LLM's op deze prompts worden gegenereerd, een proces dat we responsclassificatie noemen. Voor zowel prompt- als responsclassificatie hebben we zorgvuldig een dataset van hoge kwaliteit verzameld. Llama Guard, een Llama2-7b-model dat is afgestemd op instructies met behulp van onze verzamelde dataset, ondanks het beperkte volume, toont sterke prestaties op bestaande benchmarks zoals de OpenAI Moderation Evaluation dataset en ToxicChat, waar de prestaties overeenkomen met of die van momenteel beschikbare inhoudsmoderatietools overtreffen. Llama Guard fungeert als een taalmodel, waarbij het multi-class classificatie uitvoert en binaire beslissingsscores genereert. Bovendien maakt de instructie-afstemming van Llama Guard het mogelijk om taken aan te passen en uitvoerformaten te wijzigen. Deze functie versterkt de mogelijkheden van het model, zoals het aanpassen van taxonomiecategorieën om aan te sluiten bij specifieke use cases, en het faciliteren van zero-shot of few-shot prompting met diverse taxonomieën als input. We stellen de modelgewichten van Llama Guard beschikbaar en moedigen onderzoekers aan om deze verder te ontwikkelen en aan te passen om te voldoen aan de evoluerende behoeften van de gemeenschap op het gebied van AI-veiligheid.
Vooraf getrainde grote taalmodellen (LLMs) vereisen fine-tuning om hun reactievermogen op natuurlijke taal-instructies te verbeteren. Federated learning (FL) biedt een manier om fine-tuning uit te voeren met behulp van de overvloedige gegevens op eindapparaten zonder de gegevensprivacy in gevaar te brengen. De meeste bestaande federated fine-tuning-methoden voor LLMs vertrouwen op parameter-efficiënte fine-tuning-technieken, die mogelijk niet de prestaties bereiken die mogelijk zijn met volledige parameter-tuning. De communicatie-overhead die gepaard gaat met volledige parameter-tuning is echter onhaalbaar hoog voor zowel servers als clients. Dit werk introduceert FedKSeed, een nieuwe aanpak die zeroth-order optimalisatie (ZOO) gebruikt met een set van willekeurige seeds. Het maakt federated volledige parameter-tuning van miljard-grote LLMs rechtstreeks op apparaten mogelijk. Onze methode vermindert de transmissievereisten tussen de server en clients aanzienlijk tot slechts een paar scalaire gradienten en willekeurige seeds, wat slechts een paar duizend bytes bedraagt. Hierop voortbouwend ontwikkelen we een strategie om het belang van ZOO-perturbaties voor FL te beoordelen, waardoor waarschijnlijkheidsgedifferentieerde seed-sampling mogelijk wordt. Dit geeft prioriteit aan perturbaties die een grotere impact hebben op de nauwkeurigheid van het model. Experimenten in zes scenario's met verschillende LLMs, datasets en gegevenspartities tonen aan dat onze aanpak de bestaande federated LLM fine-tuning-methoden overtreft in termen van zowel communicatie-efficiëntie als generalisatie naar nieuwe taken.
Er zijn verschillende methoden voorgesteld voor het gebruik van Large Language Models (LLMs) in autonoom rijden. Een strategie voor het gebruik van LLMs voor autonoom rijden omvat het invoeren van omringende objecten als tekstprompts in de LLMs, samen met hun coördinaat- en snelheidsinformatie, en vervolgens het uitvoeren van de daaropvolgende bewegingen van het voertuig. Bij het gebruik van LLMs voor dergelijke doeleinden zijn capaciteiten zoals ruimtelijk herkennen en plannen essentieel. In het bijzonder zijn twee fundamentele capaciteiten vereist: (1) ruimtelijk bewust besluitvorming, wat het vermogen is om ruimte te herkennen aan de hand van coördinaatinformatie en beslissingen te nemen om botsingen te vermijden, en (2) het vermogen om zich aan verkeersregels te houden. Er is echter geen kwantitatief onderzoek gedaan naar hoe nauwkeurig verschillende soorten LLMs deze problemen kunnen aanpakken. In deze studie hebben we deze twee capaciteiten van LLMs in de context van autonoom rijden kwantitatief geëvalueerd. Bovendien hebben we, om een Proof of Concept (POC) uit te voeren voor de haalbaarheid van het implementeren van deze capaciteiten in daadwerkelijke voertuigen, een systeem ontwikkeld dat LLMs gebruikt om een voertuig te besturen.
Captum is een uitgebreide bibliotheek voor modelverklaringen in PyTorch, die een reeks methoden uit de interpretatieliteratuur biedt om het begrip van PyTorch-modellen te vergroten. In dit artikel introduceren we nieuwe functies in Captum die specifiek zijn ontworpen om het gedrag van generatieve taalmodelen te analyseren. We geven een overzicht van de beschikbare functionaliteiten en voorbeeldtoepassingen van hun potentieel om geleerde associaties binnen generatieve taalmodelen te begrijpen.
MEGA is een recente transformer-gebaseerde architectuur die gebruikmaakt van een lineaire recurrent operator waarvan de parallelle berekening, gebaseerd op de FFT, schaalt als O(LlogL), waarbij L de sequentielengte is. Wij bouwen voort op hun aanpak door de lineaire recurrent te vervangen door een speciaal tijdconvolutienetwerk dat een groter receptief veld mogelijk maakt met ondiepere netwerken en de rekencomplexiteit reduceert tot O(L). Het resulterende model wordt TCNCA genoemd, een Tijdconvolutienetwerk met Chunked Attention. We evalueren TCNCA op EnWik8-taalmodelering, long-range-arena (LRA) sequentieclassificatie, evenals een synthetisch redeneerbenchmark voor associatief ophalen. Op EnWik8 presteert TCNCA beter dan MEGA, met een lager verlies en 1,37x/1,24x snellere voorwaartse/achterwaartse passes tijdens de training. De gedilateerde convoluties die in TCNCA worden gebruikt, zijn consistent en aanzienlijk snellere operaties dan de FFT-gebaseerde parallelle recurrent in GPU's, waardoor ze een schaalbare kandidaat zijn voor het verwerken van zeer grote sequentielengtes: ze zijn tot 7,07x/2,86x sneller in de voorwaartse/achterwaartse pass voor sequenties tot 131k. Verder behaalt TCNCA op LRA gemiddeld een 1,28x versnelling tijdens inferentie met een vergelijkbare nauwkeurigheid als MEGA. Op associatief ophalen vinden we dat zelfs een vereenvoudigde versie van TCNCA, zonder overmatige multiplicatieve en additieve interacties, superieur of competitief blijft ten opzichte van MEGA over een reeks sequentielengtes en vocabulaire groottes.
Grote Taalmodellen (LLMs) hebben een krachtig vermogen getoond voor tekstgeneratie. Het bereiken van optimale resultaten met een gegeven prompt of instructie kan echter uitdagend zijn, vooral voor modellen van miljarden grootte. Daarnaast kunnen ongewenste gedragingen zoals toxiciteit of hallucinaties zich voordoen. Hoewel veel grotere modellen (bijvoorbeeld ChatGPT) sterke punten kunnen vertonen in het beperken van deze problemen, is er nog steeds geen garantie op volledige preventie. In dit werk stellen we voor om tekstgeneratie te formaliseren als een toekomstbeperkt generatieprobleem om ongewenste gedragingen te minimaliseren en trouw aan instructies te waarborgen. De schatting van toekomstige beperkingsvoldoening, uitgevoerd met behulp van LLMs, begeleidt het tekstgeneratieproces. Onze uitgebreide experimenten tonen de effectiviteit van de voorgestelde aanpak aan over drie verschillende tekstgeneratietaken: sleutelwoordbeperkte generatie (Lin et al., 2020), toxiciteitsreductie (Gehman et al., 2020), en feitelijke correctheid in vraag-antwoordtaken (Gao et al., 2023).
In dit artikel bestuderen we empirisch de optimalisatiedynamiek van multi-task leren, met name gericht op die welke een verzameling taken beheersen met een aanzienlijke data-onbalans. We presenteren een eenvoudige maar effectieve methode van vooraf trainen op taken met veel resources, gevolgd door fine-tuning op een mix van taken met veel/weinig resources. We bieden een grondige empirische studie en analyse van de voordelen van deze methode, waaruit blijkt dat deze consistente verbeteringen bereikt ten opzichte van het prestatie-afwegingprofiel van standaard statische weging. We analyseren onder welke data-regimes deze methode toepasbaar is en tonen de verbeteringen empirisch aan in neurale machinevertaling (NMT) en meertalige taalmodellering.