Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Wij stellen een raamwerk voor voor het classificeren van de capaciteiten en het gedrag van Artificial General Intelligence (AGI)-modellen en hun voorlopers. Dit raamwerk introduceert niveaus van AGI-prestatie, generaliteit en autonomie. Het is onze hoop dat dit raamwerk op een vergelijkbare manier nuttig zal zijn als de niveaus van autonoom rijden, door een gemeenschappelijke taal te bieden om modellen te vergelijken, risico's in te schatten en voortgang op het pad naar AGI te meten. Om ons raamwerk te ontwikkelen, analyseren we bestaande definities van AGI en destilleren we zes principes die een nuttige ontologie voor AGI zou moeten voldoen. Deze principes omvatten het focussen op capaciteiten in plaats van mechanismen; het afzonderlijk evalueren van generaliteit en prestaties; en het definiëren van fasen langs het pad naar AGI, in plaats van te focussen op het eindpunt. Met deze principes in gedachten, stellen we 'Niveaus van AGI' voor op basis van diepte (prestatie) en breedte (generaliteit) van capaciteiten, en reflecteren we op hoe huidige systemen in deze ontologie passen. We bespreken de uitdagende vereisten voor toekomstige benchmarks die het gedrag en de capaciteiten van AGI-modellen kwantificeren tegen deze niveaus. Tot slot bespreken we hoe deze niveaus van AGI interageren met overwegingen voor implementatie, zoals autonomie en risico, en benadrukken we het belang van het zorgvuldig selecteren van Human-AI Interaction-paradigma's voor een verantwoorde en veilige implementatie van zeer capabele AI-systemen.
Grote Multimodale Modellen (LMMs) breiden Grote Taalmodellen uit naar het visuele domein. Eerste inspanningen voor LMMs gebruikten holistische afbeeldingen en tekstprompts om ongegronde tekstuele reacties te genereren. Zeer recentelijk zijn regioniveau-LMMs gebruikt om visueel gegronde reacties te genereren. Deze zijn echter beperkt tot het verwijzen naar slechts één objectcategorie tegelijk, vereisen dat gebruikers de regio's in de invoer specificeren, of kunnen geen dichte pixelgewijze objectverankering bieden. In dit werk presenteren we Grounding LMM (GLaMM), het eerste model dat natuurlijke taalreacties kan genereren die naadloos verweven zijn met bijbehorende objectsegmentatiemaskers. GLaMM verankert niet alleen objecten die in de gesprekken voorkomen, maar is ook flexibel genoeg om zowel tekstuele als optionele visuele prompts (regio van interesse) als invoer te accepteren. Hierdoor kunnen gebruikers op verschillende niveaus van granulariteit met het model interacteren, zowel in tekstuele als visuele domeinen. Vanwege het gebrek aan standaardbenchmarks voor de nieuwe setting van het genereren van visueel gegronde gedetailleerde gesprekken, introduceren we een uitgebreid evaluatieprotocol met onze samengestelde gegronde gesprekken. Onze voorgestelde Gegronde Gespreksgeneratie (GCG) taak vereist dicht gegronde concepten in natuurlijke scènes op grote schaal. Hiertoe stellen we een dicht geannoteerde Grounding-anything Dataset (GranD) voor, gebruikmakend van onze voorgestelde geautomatiseerde annotatiepijplijn die 7,5 miljoen unieke concepten omvat, gegrond in een totaal van 810 miljoen regio's die beschikbaar zijn met segmentatiemaskers. Naast GCG presteert GLaMM ook effectief op verschillende downstream taken, zoals verwijzende expressiesegmentatie, afbeelding- en regioniveau-beschrijvingen en visie-taalgesprekken. Projectpagina: https://mbzuai-oryx.github.io/groundingLMM.
Video-synthese heeft recentelijk opmerkelijke vooruitgang geboekt dankzij de snelle ontwikkeling van diffusiemodellen. Het stuit echter nog steeds op uitdagingen op het gebied van semantische nauwkeurigheid, helderheid en spatio-temporele continuïteit. Deze ontstaan voornamelijk door de schaarste aan goed uitgelijnde tekst-video-data en de complexe inherente structuur van video's, waardoor het voor het model moeilijk is om tegelijkertijd semantische en kwalitatieve excellentie te waarborgen. In dit rapport stellen we een gecascadeerde I2VGen-XL-aanpak voor die de modelprestaties verbetert door deze twee factoren te ontkoppelen en de uitlijning van de invoerdata te waarborgen door statische afbeeldingen te gebruiken als een vorm van cruciale begeleiding. I2VGen-XL bestaat uit twee fasen: i) de basisfase garandeert samenhangende semantiek en behoudt de inhoud van invoerafbeeldingen door gebruik te maken van twee hiërarchische encoders, en ii) de verfijningsfase verbetert de details van de video door een aanvullende korte tekst te incorporeren en de resolutie te verhogen naar 1280x720. Om de diversiteit te verbeteren, hebben we ongeveer 35 miljoen enkelvoudige tekst-video-paren en 6 miljard tekst-afbeelding-paren verzameld om het model te optimaliseren. Op deze manier kan I2VGen-XL tegelijkertijd de semantische nauwkeurigheid, de continuïteit van details en de helderheid van gegenereerde video's verbeteren. Door uitgebreide experimenten hebben we de onderliggende principes van I2VGen-XL onderzocht en vergeleken met huidige topmethoden, wat de effectiviteit ervan op diverse data kan aantonen. De broncode en modellen zullen publiekelijk beschikbaar zijn op https://i2vgen-xl.github.io.
Het "pretrain-then-finetune"-paradigma wordt veel gebruikt bij de implementatie van grote taalmodellen. Low-Rank Adaptation (LoRA), een parameter-efficiënte fine-tuningmethode, wordt vaak ingezet om een basismodel aan te passen aan een veelheid aan taken, wat resulteert in een aanzienlijke verzameling LoRA-adapters afgeleid van één basismodel. Wij observeren dat dit paradigma aanzienlijke mogelijkheden biedt voor batchgewijze inferentie tijdens het serveren. Om van deze mogelijkheden gebruik te maken, presenteren we S-LoRA, een systeem ontworpen voor het schaalbaar serveren van vele LoRA-adapters. S-LoRA slaat alle adapters op in het hoofdgeheugen en haalt de adapters die worden gebruikt door de momenteel lopende queries op naar het GPU-geheugen. Om het GPU-geheugen efficiënt te gebruiken en fragmentatie te verminderen, stelt S-LoRA Unified Paging voor. Unified Paging gebruikt een geïntegreerd geheugenpool om dynamische adaptergewichten met verschillende rangen en KV-cache-tensors met variërende sequentielengtes te beheren. Daarnaast maakt S-LoRA gebruik van een nieuwe tensorparallelisme-strategie en sterk geoptimaliseerde aangepaste CUDA-kernels voor heterogene batchverwerking van LoRA-berekeningen. Samen maken deze functies het mogelijk dat S-LoRA duizenden LoRA-adapters kan serveren op een enkele GPU of over meerdere GPU's met een kleine overhead. Vergeleken met state-of-the-art bibliotheken zoals HuggingFace PEFT en vLLM (met eenvoudige ondersteuning van LoRA-serving), kan S-LoRA de doorvoer tot wel 4 keer verbeteren en het aantal geserveerde adapters met meerdere ordes van grootte verhogen. Hierdoor maakt S-LoRA het schaalbaar serveren van vele taakspecifiek fine-tunede modellen mogelijk en biedt het potentieel voor grootschalige gepersonaliseerde fine-tuningdiensten.
We introduceren CogVLM, een krachtig open-source visueel taal fundamentmodel. In tegenstelling tot de populaire methode van oppervlakkige afstemming, waarbij beeldkenmerken worden toegewezen aan de invoerruimte van het taalmodel, overbrugt CogVLM de kloof tussen het bevroren voorgetrainde taalmodel en de beeldencoder door middel van een trainbare visuele expertmodule in de aandacht- en FFN-lagen. Hierdoor maakt CogVLM een diepe fusie van visuele en taal kenmerken mogelijk zonder in te leveren op prestaties bij NLP-taken. CogVLM-17B behaalt state-of-the-art prestaties op 10 klassieke cross-modale benchmarks, waaronder NoCaps, Flicker30k captioning, RefCOCO, RefCOCO+, RefCOCOg, Visual7W, GQA, ScienceQA, VizWiz VQA en TDIUC, en staat op de 2e plaats bij VQAv2, OKVQA, TextVQA, COCO captioning, enz., waarbij het PaLI-X 55B overtreft of evenaart. Code en checkpoints zijn beschikbaar op https://github.com/THUDM/CogVLM.
Dynamische vormberekeningen zijn cruciaal geworden in moderne machine learning-workloads, vooral in opkomende grote taalmodellen. Het succes van deze modellen heeft de vraag aangewakkerd om ze te implementeren in een diverse set van backend-omgevingen. In dit artikel presenteren we Relax, een compilerabstractie voor het optimaliseren van end-to-end dynamische machine learning-workloads. Relax introduceert eersteklas symbolische vormannotaties om dynamische vormberekeningen globaal in het programma te volgen. Het introduceert ook een abstractie op meerdere niveaus die computergrafieken, tensorprogramma's op loopniveau en bibliotheekaanroepen in één enkele representatie omvat, om optimalisaties op meerdere niveaus mogelijk te maken. We bouwen een end-to-end compilatiekader met behulp van de voorgestelde aanpak om dynamische vormmodellen te optimaliseren. Experimentele resultaten op grote taalmodellen laten zien dat Relax prestaties levert die competitief zijn met state-of-the-art handmatig geoptimaliseerde systemen op verschillende platforms, en het mogelijk maakt om opkomende dynamische modellen te implementeren in een bredere set van omgevingen, waaronder mobiele telefoons, embedded apparaten en webbrowsers.
De afgelopen jaren zijn verschillende grote taalmodellen (LLMs) voorgesteld, zowel closed- als open-source, die voortdurend nieuwe records vestigen op meerdere benchmarks. De ontwikkeling van LLMs kampt echter nog steeds met verschillende problemen, zoals de hoge kosten van het trainen van modellen vanaf nul, en het voortdurende vooraf trainen dat kan leiden tot catastrofaal vergeten, enz. Hoewel veel van deze problemen worden aangepakt in het lopende onderzoek naar LLMs, is een belangrijk maar praktisch beperkend aspect dat veel studies te veel gericht zijn op het vergroten van de modelgroottes zonder het gebruik van vooraf getrainde data in hun leerproces grondig te analyseren en te optimaliseren, evenals de juiste organisatie en benutting van dergelijke data bij het trainen van LLMs onder kosteneffectieve omstandigheden. In dit werk stellen we Ziya2 voor, een model met 13 miljard parameters dat LLaMA2 als basis model gebruikt en verder is vooraf getraind op 700 miljard tokens, waarbij we ons richten op vooraf trainen technieken en data-gerichte optimalisatie gebruiken om het leerproces van Ziya2 in verschillende fasen te verbeteren. Experimenten tonen aan dat Ziya2 aanzienlijk beter presteert dan andere modellen op meerdere benchmarks, vooral met veelbelovende resultaten in vergelijking met representatieve open-source modellen. Ziya2 (Base) is vrijgegeven op https://huggingface.co/IDEA-CCNL/Ziya2-13B-Base en https://modelscope.cn/models/Fengshenbang/Ziya2-13B-Base/summary.
We presenteren een end-to-end systeem voor de hoogwaardige vastlegging, modelreconstructie en real-time weergave van begaanbare ruimtes in virtual reality met behulp van neurale stralingsvelden. Hiervoor hebben we een speciaal ontworpen multi-camera-opstelling gebouwd om begaanbare ruimtes dicht te kunnen vastleggen in hoge kwaliteit en met multi-view high dynamic range-beelden van ongekende kwaliteit en dichtheid. We breiden instant neurale grafische primitieven uit met een nieuw perceptueel kleurruimte voor het leren van nauwkeurige HDR-weergave, en een efficiënt mip-mapping-mechanisme voor level-of-detail rendering met anti-aliasing, waarbij we zorgvuldig de afweging tussen kwaliteit en snelheid optimaliseren. Onze multi-GPU-renderer maakt hoogwaardige volumetrische rendering mogelijk van ons neurale stralingsveldmodel op de volledige VR-resolutie van dubbele 2K×2K bij 36 Hz op onze aangepaste demomachine. We demonstreren de kwaliteit van onze resultaten op onze uitdagende hoogwaardige datasets, en vergelijken onze methode en datasets met bestaande referentiemodellen. We publiceren onze dataset op onze projectwebsite.
In door mensen geschreven artikelen maken we vaak gebruik van de subtiliteiten van tekststijl, zoals vetgedrukte en cursieve tekst, om de aandacht van lezers te sturen. Deze tekstuele nadruk is essentieel voor lezers om de overgebrachte informatie te begrijpen. Bij interactie met grote taalmodellen (LLM's) hebben we een vergelijkbare behoefte: het sturen van het model om meer aandacht te besteden aan door de gebruiker gespecificeerde informatie, bijvoorbeeld een instructie. Bestaande methoden zijn echter beperkt tot het verwerken van platte tekst en ondersteunen een dergelijk mechanisme niet. Dit motiveert ons om PASTA te introduceren - Post-hoc Attention STeering Approach, een methode die LLM's in staat stelt tekst te lezen met door de gebruiker gespecificeerde nadruksmarkeringen. Hiertoe identificeert PASTA een kleine subset van aandachtskoppen en past precieze aandachtherweging toe op deze koppen, waardoor de aandacht van het model wordt gericht op door de gebruiker gespecificeerde delen. Net als bij prompting wordt PASTA toegepast tijdens de inferentie en is het niet nodig om modelparameters te wijzigen. Experimenten tonen aan dat PASTA het vermogen van een LLM om gebruikersinstructies te volgen of nieuwe kennis uit gebruikersinvoer te integreren aanzienlijk kan verbeteren, wat leidt tot een significante prestatieverbetering bij een verscheidenheid aan taken, bijvoorbeeld een gemiddelde nauwkeurigheidsverbetering van 22% voor LLAMA-7B. Onze code is openbaar beschikbaar op https://github.com/QingruZhang/PASTA.
Code LLMs zijn uitgegroeid tot een gespecialiseerd onderzoeksveld, met opmerkelijke studies gewijd aan het verbeteren van de codeervaardigheden van modellen door middel van fine-tuning op vooraf getrainde modellen. Eerdere fine-tuningbenaderingen waren doorgaans afgestemd op specifieke downstream taken of scenario's, wat betekende dat er aparte fine-tuning nodig was voor elke taak, wat uitgebreide trainingsbronnen vereiste en uitdagingen opleverde op het gebied van implementatie en onderhoud. Bovendien maakten deze benaderingen geen gebruik van de inherente onderlinge verbondenheid tussen verschillende codegerelateerde taken. Om deze beperkingen te overwinnen, presenteren we een multi-task fine-tuningframework, MFTcoder, dat gelijktijdige en parallelle fine-tuning op meerdere taken mogelijk maakt. Door verschillende verliesfuncties te integreren, pakken we effectief veelvoorkomende uitdagingen in multi-task learning aan, zoals data-onbalans, variërende moeilijkheidsgraden en inconsistente convergentiesnelheden. Uitgebreide experimenten hebben overtuigend aangetoond dat onze multi-task fine-tuningbenadering zowel individuele fine-tuning op enkele taken als fine-tuning op een gemengd ensemble van taken overtreft. Bovendien biedt MFTcoder efficiënte trainingsmogelijkheden, waaronder efficiënte data-tokenisatiemodi en PEFT fine-tuning, wat resulteert in een aanzienlijk verbeterde snelheid in vergelijking met traditionele fine-tuningmethoden. MFTcoder integreert naadloos met verschillende mainstream open-source LLMs, zoals CodeLLama en Qwen. Door gebruik te maken van de CodeLLama-basis, bereikt ons MFTcoder fine-tuned model, CodeFuse-CodeLLama-34B, een indrukwekkende pass@1 score van 74,4\% op de HumaneEval benchmark, wat de prestaties van GPT-4 overtreft (67\%, zero-shot). MFTCoder is open-source beschikbaar op https://github.com/codefuse-ai/MFTCOder.
Latent diffusiemodellen hebben zich bewezen als state-of-the-art in het creëren en manipuleren van visuele uitvoer. Voor zover wij weten, is de gezamenlijke generatie van dieptekaarten met RGB echter nog beperkt. Wij introduceren LDM3D-VR, een suite van diffusiemodellen gericht op virtual reality-ontwikkeling, waaronder LDM3D-pano en LDM3D-SR. Deze modellen maken het mogelijk om panoramische RGBD te genereren op basis van tekstuele prompts en het opschalen van laagresolutie-invoer naar hoogresolutie RGBD, respectievelijk. Onze modellen zijn afgestemd vanuit bestaande vooraf getrainde modellen op datasets die panoramische/hoogresolutie RGB-afbeeldingen, dieptekaarten en bijschriften bevatten. Beide modellen worden geëvalueerd in vergelijking met bestaande gerelateerde methoden.
Knowledge Distillation (KD) comprimeert computationeel dure vooraf getrainde taalmodelen (PLMs) door hun kennis over te dragen naar kleinere modellen, waardoor ze kunnen worden gebruikt in omgevingen met beperkte middelen of in real-time toepassingen. De meeste kleinere modellen slagen er echter niet in om de prestaties van het oorspronkelijke grotere model te overtreffen, wat resulteert in het opofferen van prestaties om de inferentiesnelheid te verbeteren. Om dit probleem aan te pakken, stellen we Co-Training en Co-Distillation (CTCD) voor, een nieuw framework dat zowel de prestaties als de inferentiesnelheid verbetert door twee modellen gezamenlijk te trainen en tegelijkertijd kennis onderling te distilleren. Het CTCD-framework bereikt dit succesvol op basis van twee belangrijke bevindingen: 1) Het distilleren van kennis van het kleinere model naar het grotere model tijdens co-training verbetert de prestaties van het grotere model. 2) De verbeterde prestaties van het grotere model versterken op hun beurt de prestaties van het kleinere model. Het CTCD-framework toont veelbelovende resultaten, omdat het kan worden gecombineerd met bestaande technieken zoals architectuurontwerp of data-augmentatie, waarbij het eenrichtings-KD-methoden vervangt om verdere prestatieverbetering te bereiken. Uitgebreide ablatiestudies tonen de effectiviteit van CTCD aan, en het kleine model dat door CTCD is gedistilleerd, overtreft het oorspronkelijke grotere model met een aanzienlijke marge van 1,66 op de GLUE-benchmark.
In dit artikel tonen we aan dat een eenvoudig zelfvoorbereid vooraf getraind audiomodel vergelijkbare inferentie-efficiëntie kan bereiken als complexere vooraf getrainde modellen met spraaktransformer-encoders. Deze spraaktransformers zijn gebaseerd op het combineren van convolutionele modules met zelf-attentiemodules. Ze behalen state-of-the-art prestaties op automatische spraakherkenning (ASR) met een hoge efficiëntie. We laten eerst zien dat het gebruik van deze spraaktransformers als encoder ook de efficiëntie van vooraf getrainde audiomodellen aanzienlijk verbetert. Onze studie toont echter aan dat we vergelijkbare efficiëntie kunnen bereiken met geavanceerde zelf-attentie alleen. We demonstreren dat deze eenvoudigere aanpak vooral voordelig is in combinatie met een techniek voor laagbitgewichtskwantisering van een neuraal netwerk om de efficiëntie te verbeteren. We veronderstellen dat dit het doorgeven van fouten tussen verschillende gekwantiseerde modules voorkomt in vergelijking met recente spraaktransformers die gekwantiseerde convolutie en gekwantiseerde zelf-attentiemodules combineren.
Een opmerkelijke vaardigheid van mensen ligt in compositioneel redeneren, d.w.z. het vermogen om "oneindig gebruik te maken van eindige middelen". Huidige grote vision-language foundation modellen (VLMs) schieten echter tekort in dergelijke compositionele vaardigheden vanwege hun "bag-of-words" gedrag en het onvermogen om woorden te construeren die visuele entiteiten en de relaties daartussen correct weergeven. Daarom stellen we CoVLM voor, dat de LLM kan begeleiden om expliciet visuele entiteiten en relaties in de tekst te componeren en dynamisch te communiceren met de vision encoder en het detectienetwerk om vision-language communicatieve decodering te bereiken. Specifiek ontwikkelen we eerst een set nieuwe communicatietokens voor de LLM, voor dynamische communicatie tussen het visuele detectiesysteem en het taalsysteem. Een communicatietoken wordt gegenereerd door de LLM na een visuele entiteit of relatie, om het detectienetwerk te informeren om regio's voor te stellen die relevant zijn voor de tot nu toe gegenereerde zin. De voorgestelde regio's van belang (ROIs) worden vervolgens teruggevoerd naar de LLM voor betere taalgeneratie afhankelijk van de relevante regio's. De LLM is zo in staat om de visuele entiteiten en relaties te componeren via de communicatietokens. De communicatie van vision naar taal en van taal naar vision wordt iteratief uitgevoerd totdat de hele zin is gegenereerd. Ons framework overbrugt naadloos de kloof tussen visuele perceptie en LLM's en overtreft eerdere VLMs met een grote marge op compositionele redeneerbenchmarks (bijv. ~20% in HICO-DET mAP, ~14% in Cola top-1 nauwkeurigheid, en ~3% op ARO top-1 nauwkeurigheid). We behalen ook state-of-the-art prestaties op traditionele vision-language taken zoals referring expression comprehension en visual question answering.
Grote taalmodelen (LMs) zijn in staat om vrije-tekstredeneringen te genereren om vraagbeantwoording te ondersteunen. Eerdere onderzoeken suggereren echter 1) dat nuttige zelfredenering alleen ontstaat bij aanzienlijke schaal (bijvoorbeeld GPT-3 met 175B parameters); en 2) richten zich grotendeels op downstreamprestaties, waarbij de semantiek van de redeneringen zelf wordt genegeerd, zoals of ze betrouwbaar, waar en nuttig zijn voor mensen. In dit werk stellen we kleinschalige LMs (ongeveer 200x kleiner dan GPT-3) in staat om redeneringen te genereren die niet alleen de prestaties van downstreamtaken verbeteren, maar ook plausibeler, consistenter en diverser zijn, beoordeeld door zowel automatische als menselijke evaluatie. Onze methode, MaRio (Multi-rewArd RatIOnalization), is een multi-beloning geconditioneerd zelfredeneringsalgoritme dat meerdere verschillende eigenschappen optimaliseert, zoals plausibiliteit, diversiteit en consistentie. Resultaten op vijf uitdagende vraagbeantwoordingsdatasets—StrategyQA, QuaRel, OpenBookQA, NumerSense en QASC—laten zien dat MaRio niet alleen de taaknauwkeurigheid verbetert, maar ook de kwaliteit van zelfredenering van kleine LMs verbetert op de bovengenoemde aspecten, beter dan een baseline van supervised fine-tuning (SFT). Uitgebreide menselijke evaluaties bevestigen dat MaRio-redeneringen de voorkeur genieten boven SFT-redeneringen, evenals kwalitatieve verbeteringen in plausibiliteit en consistentie.
In dit artikel presenteren we Consistent4D, een nieuwe aanpak voor het genereren van 4D-dynamische objecten uit ongekalibreerde monovideo's. Uniek aan onze methode is dat we de 360-graden reconstructie van dynamische objecten benaderen als een 4D-generatieprobleem, waardoor de noodzaak voor tijdrovende dataverzameling vanuit meerdere perspectieven en camerakalibratie wordt geëlimineerd. Dit wordt bereikt door gebruik te maken van een objectgeoriënteerd 3D-bewust beelddiffusiemodel als primair supervisiesignaal voor het trainen van Dynamische Neural Radiance Fields (DyNeRF). Specifiek stellen we een Cascade DyNeRF voor om stabiele convergentie en temporele continuïteit te bevorderen onder het supervisiesignaal dat discreet is langs de tijdas. Om ruimtelijke en temporele consistentie te bereiken, introduceren we verder een Interpolatie-gestuurd Consistentieverlies. Dit wordt geoptimaliseerd door de discrepantie te minimaliseren tussen gerenderde frames van DyNeRF en geïnterpoleerde frames van een vooraf getraind video-interpolatiemodel. Uitgebreide experimenten tonen aan dat onze Consistent4D competitief presteert ten opzichte van eerdere alternatieven, wat nieuwe mogelijkheden opent voor 4D-dynamische objectgeneratie uit monovideo's, terwijl het ook voordelen laat zien voor conventionele tekst-naar-3D-generatietaken. Onze projectpagina is te vinden op https://consistent4d.github.io/.
Transformermodellen die getraind zijn op lange sequenties behalen vaak een hogere nauwkeurigheid dan korte sequenties. Helaas hebben conventionele transformers moeite met het trainen van lange sequenties vanwege de overweldigende reken- en geheugenvereisten. Bestaande methoden voor het trainen van lange sequenties bieden beperkte versnelling en geheugenreductie, en kunnen de nauwkeurigheid in gevaar brengen. Dit artikel presenteert een nieuwe en efficiënte gedistribueerde trainingsmethode, de Long Short-Sequence Transformer (LSS Transformer), voor het trainen van transformers met lange sequenties. Het verdeelt een lange sequentie in segmenten over GPU's, waarbij elke GPU een gedeeltelijke self-attention berekent voor zijn segment. Vervolgens gebruikt het een gefuseerde communicatie en een nieuwe dubbele gradient-averagingtechniek om de noodzaak om gedeeltelijke self-attention te aggregeren te vermijden en de communicatie-overhead te minimaliseren. We hebben de prestaties van de LSS Transformer vergeleken met de state-of-the-art Nvidia sequence-paralleliteit op een Wikipedia enwik8-dataset. De resultaten laten zien dat onze voorgestelde methode leidt tot een 5,6x snellere en 10,2x geheugenefficiëntere implementatie in vergelijking met state-of-the-art sequence-paralleliteit op 144 Nvidia V100 GPU's. Bovendien schaalt ons algoritme naar een extreme sequentielengte van 50.112 op 3.456 GPU's, waarbij het een super-lineaire parallelle efficiëntie van 161% en een doorvoer van 32 petaflops bereikt.