Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Wij stellen een nieuwe inferentietechniek voor, gebaseerd op een vooraf getraind diffusiemodel voor tekstgeconditioneerde videogeneratie. Onze aanpak, genaamd FIFO-Diffusion, is in principe in staat om oneindig lange video's te genereren zonder training. Dit wordt bereikt door iteratief diagonale ruisverwijdering uit te voeren, waarbij een reeks opeenvolgende frames met toenemende ruisniveaus gelijktijdig wordt verwerkt in een wachtrij; onze methode verwijdert een volledig ontruisd frame aan de kop van de wachtrij en voegt een nieuw frame met willekeurige ruis toe aan de staart. Echter, diagonale ruisverwijdering is een tweesnijdend zwaard, aangezien de frames nabij de staart kunnen profiteren van schonere frames door voorwaartse referentie, maar een dergelijke strategie introduceert een discrepantie tussen training en inferentie. Daarom introduceren we latente partitie om de kloof tussen training en inferentie te verkleinen en vooruitkijkende ruisverwijdering om het voordeel van voorwaartse referentie te benutten. We hebben de veelbelovende resultaten en effectiviteit van de voorgestelde methoden aangetoond op bestaande tekst-naar-video generatie-baselines.
Low-rank adaptatie is een populaire parameter-efficiënte fine-tuning methode voor grote taalmodellen. In dit artikel analyseren we de impact van low-rank updates, zoals geïmplementeerd in LoRA. Onze bevindingen suggereren dat het low-rank update mechanisme het vermogen van grote taalmodellen om effectief nieuwe kennis te leren en te onthouden, kan beperken. Geïnspireerd door deze observatie stellen we een nieuwe methode voor genaamd MoRA, die een vierkante matrix gebruikt om high-rank updates te bereiken terwijl hetzelfde aantal trainbare parameters behouden blijft. Om dit te bereiken, introduceren we de bijbehorende niet-parameter operatoren om de invoerdimensie te verkleinen en de uitvoerdimensie voor de vierkante matrix te vergroten. Bovendien zorgen deze operatoren ervoor dat het gewicht terug kan worden samengevoegd in grote taalmodellen, waardoor onze methode net als LoRA kan worden ingezet. We voeren een uitgebreide evaluatie van onze methode uit over vijf taken: instructie-tuning, wiskundig redeneren, voortgezette pretraining, geheugen en pretraining. Onze methode presteert beter dan LoRA bij geheugenintensieve taken en behaalt vergelijkbare prestaties bij andere taken.
Naarmate grote taalmmodellen (LLMs) blijven groeien volgens schaalwetten, heeft reinforcement learning met menselijke feedback (RLHF) aanzienlijke aandacht gekregen vanwege zijn uitstekende prestaties. In tegenstelling tot het vooraf trainen of finetunen van een enkel model, brengt het opschalen van reinforcement learning met menselijke feedback (RLHF) voor het trainen van grote taalmmodellen coördinatie-uitdagingen met zich mee over vier modellen. Wij presenteren OpenRLHF, een open-source framework dat efficiënte RLHF-schaling mogelijk maakt. In tegenstelling tot bestaande RLHF-frameworks die vier modellen op dezelfde GPU's plaatsen, herontwerpt OpenRLHF de planning voor modellen met meer dan 70B parameters met behulp van Ray, vLLM en DeepSpeed, waarbij verbeterde resourcebenutting en diverse trainingsaanpakken worden benut. Naadloos geïntegreerd met Hugging Face biedt OpenRLHF een out-of-the-box oplossing met geoptimaliseerde algoritmen en startscripts, wat gebruiksvriendelijkheid garandeert. OpenRLHF implementeert RLHF, DPO, rejection sampling en andere alignmenttechnieken. OpenRLHF, dat de ontwikkeling van state-of-the-art LLM's mogelijk maakt, is beschikbaar op https://github.com/OpenLLMAI/OpenRLHF.
Het groeiende aantal parameter-efficiënte aanpassingen van een basis groot taalmodel (LLM) roept de vraag op of we dergelijke getrainde adapters kunnen hergebruiken om de prestaties voor nieuwe taken te verbeteren. We onderzoeken hoe we het beste een bibliotheek van adapters kunnen opbouwen, gegeven multi-task data, en ontwikkelen technieken voor zowel zero-shot als supervised task generalisatie door middel van routering in zo'n bibliotheek. We benchmarken bestaande benaderingen om deze bibliotheek op te bouwen en introduceren modelgebaseerde clustering, MBC, een methode die taken groepeert op basis van de gelijkenis van hun adapterparameters, wat indirect optimaliseert voor overdracht over de multi-task dataset. Om de bibliotheek te hergebruiken, presenteren we een nieuw zero-shot routeringsmechanisme, Arrow, dat dynamische selectie van de meest relevante adapters voor nieuwe invoer mogelijk maakt zonder de noodzaak van hertraining. We experimenteren met verschillende LLM's, zoals Phi-2 en Mistral, op een breed scala aan achtergehouden taken, en verifiëren dat MBC-gebaseerde adapters en Arrow-routering leiden tot superieure generalisatie naar nieuwe taken. We zetten stappen naar het creëren van modulaire, aanpasbare LLM's die traditionele gezamenlijke training kunnen evenaren of overtreffen.
Grote beleidsmodellen die vooraf zijn getraind op diverse robotdatasets hebben het potentieel om robotleren te transformeren: in plaats van nieuwe beleidsmodellen vanaf nul te trainen, kunnen dergelijke generalistische robotbeleidsmodellen worden gefinetuned met slechts een kleine hoeveelheid domeinspecifieke data, terwijl ze toch breed generaliseren. Om echter breed toepasbaar te zijn in een reeks robotleerscenario's, omgevingen en taken, moeten dergelijke beleidsmodellen omgaan met diverse sensoren en actieruimten, een verscheidenheid aan veelgebruikte robotplatforms accommoderen, en zich gemakkelijk en efficiënt kunnen finetunen naar nieuwe domeinen. In dit werk streven we ernaar de basis te leggen voor de ontwikkeling van open-source, breed toepasbare, generalistische beleidsmodellen voor robotmanipulatie. Als eerste stap introduceren we Octo, een groot transformer-gebaseerd beleidsmodel getraind op 800k trajecten uit de Open X-Embodiment dataset, de grootste robotmanipulatiedataset tot nu toe. Het kan worden aangestuurd via taalcommando's of doelafbeeldingen en kan effectief worden gefinetuned naar robotopstellingen met nieuwe sensorische inputs en actieruimten binnen enkele uren op standaard consumenten-GPU's. In experimenten over 9 robotplatforms demonstreren we dat Octo dient als een veelzijdige beleidsinitialisatie die effectief kan worden gefinetuned naar nieuwe observatie- en actieruimten. We voeren ook gedetailleerde ablatie-onderzoeken uit naar ontwerpbeslissingen voor het Octo-model, van architectuur tot trainingsdata, om toekomstig onderzoek naar het bouwen van generalistische robotmodellen te begeleiden.
Door de mogelijkheden van grote taalmodel(len) (LLMs) te benutten, hebben recente grote multimodale modellen (LMMs) opmerkelijke veelzijdigheid getoond in open-wereld multimodale begrip. Desalniettemin zijn ze meestal parameterzwaar en rekenintensief, wat hun toepasbaarheid in scenario's met beperkte middelen belemmert. Om dit aan te pakken, zijn er verschillende lichtgewicht LMMs achter elkaar voorgesteld om de mogelijkheden onder een beperkte schaal (bijv. 3B) te maximaliseren. Ondanks de bemoedigende resultaten die met deze methoden zijn behaald, richten de meeste zich slechts op één of twee aspecten van de ontwerpruimte, en zijn de belangrijkste ontwerpkeuzes die de modelcapaciteit beïnvloeden nog niet grondig onderzocht. In dit artikel voeren we een systematische studie uit naar lichtgewicht LMMs vanuit de aspecten van modelarchitectuur, trainingsstrategie en trainingsdata. Op basis van onze bevindingen verkrijgen we Imp -- een familie van zeer capabele LMMs op de 2B-4B schaal. Opmerkelijk is dat ons Imp-3B model consequent alle bestaande lichtgewicht LMMs van vergelijkbare grootte overtreft, en zelfs de state-of-the-art LMMs op de 13B schaal overstijgt. Met low-bit kwantisatie en resolutieverlagende technieken kan ons Imp-model worden geïmplementeerd op een Qualcomm Snapdragon 8Gen3 mobiele chip met een hoge inferentiesnelheid van ongeveer 13 tokens/s.
Transformers zijn fundamentele architecturen geworden voor zowel natuurlijke taalverwerking als computervisietaken. De hoge rekenkosten maken het echter behoorlijk uitdagend om ze te implementeren op apparaten met beperkte middelen. Dit artikel onderzoekt de rekenkundige knelpunten van efficiënte transformers, namelijk normalisatielagen en aandachtmodules. LayerNorm wordt vaak gebruikt in transformer-architecturen, maar is niet rekenkundig vriendelijk vanwege de statistische berekeningen tijdens de inferentie. Het vervangen van LayerNorm door de efficiëntere BatchNorm in transformers leidt echter vaak tot inferieure prestaties en instorting tijdens de training. Om dit probleem aan te pakken, stellen we een nieuwe methode voor genaamd PRepBN om LayerNorm geleidelijk te vervangen door her-geparameteriseerde BatchNorm tijdens de training. Bovendien stellen we een vereenvoudigde lineaire aandachtmodule (SLA) voor die eenvoudig maar effectief is om sterke prestaties te behalen. Uitgebreide experimenten op het gebied van beeldclassificatie en objectdetectie tonen de effectiviteit van onze voorgestelde methode aan. Onze SLAB-Swin behaalt bijvoorbeeld een top-1 nauwkeurigheid van 83,6% op ImageNet-1K met een latentie van 16,2ms, wat 2,4ms minder is dan die van Flatten-Swin met een 0,1% hogere nauwkeurigheid. We hebben onze methode ook geëvalueerd voor taalmodelleertaken en vergelijkbare prestaties en lagere latentie behaald. De codes zijn openbaar beschikbaar op https://github.com/xinghaochen/SLAB en https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/SLAB.
In dit werk stellen we een nieuwe Trajectory Score Matching (TSM)-methode voor die beoogt het probleem van inconsistentie van pseudo-grondwaarheid op te lossen, veroorzaakt door de opgestapelde fout in Interval Score Matching (ISM) bij het gebruik van het Denoising Diffusion Implicit Models (DDIM)-inversieproces. In tegenstelling tot ISM, dat het inversieproces van DDIM gebruikt om op een enkel pad te berekenen, maakt onze TSM-methode gebruik van het inversieproces van DDIM om twee paden vanuit hetzelfde startpunt te genereren voor berekening. Omdat beide paden vanuit hetzelfde startpunt beginnen, kan TSM de opgestapelde fout verminderen in vergelijking met ISM, waardoor het probleem van inconsistentie van pseudo-grondwaarheid wordt verlicht. TSM verbetert de stabiliteit en consistentie van de door het model gegenereerde paden tijdens het distillatieproces. We demonstreren dit experimenteel en tonen verder aan dat ISM een speciaal geval is van TSM. Bovendien nemen we Stable Diffusion XL over als leidraad om het huidige meerfasige optimalisatieproces van hoge-resolutietekst naar 3D-generatie te optimaliseren. Als reactie op de problemen van abnormale replicatie en splitsing veroorzaakt door onstabiele gradienten tijdens het 3D Gaussian splatting-proces bij het gebruik van Stable Diffusion XL, stellen we een pixel-voor-pixel gradient clipping-methode voor. Uitgebreide experimenten tonen aan dat ons model de state-of-the-art modellen aanzienlijk overtreft wat betreft visuele kwaliteit en prestaties. Code: https://github.com/xingy038/Dreamer-XL.