Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Het BigCode-project, een open wetenschappelijke samenwerking gericht op de verantwoorde ontwikkeling van Large Language Models voor Code (Code LLMs), introduceert StarCoder2. In samenwerking met Software Heritage (SWH) bouwen we The Stack v2 bovenop het digitale gemeengoed van hun broncode-archief. Naast de SWH-repositories die 619 programmeertalen omvatten, selecteren we zorgvuldig andere hoogwaardige gegevensbronnen, zoals GitHub pull requests, Kaggle-notebooks en codedocumentatie. Dit resulteert in een trainingsset die 4x groter is dan de eerste StarCoder-dataset. We trainen StarCoder2-modellen met 3B, 7B en 15B parameters op 3,3 tot 4,3 biljoen tokens en evalueren deze grondig op een uitgebreide set Code LLM-benchmarks. We ontdekken dat ons kleine model, StarCoder2-3B, de meeste andere Code LLMs van vergelijkbare grootte overtreft op de meeste benchmarks, en ook StarCoderBase-15B overtreft. Ons grote model, StarCoder2-15B, presteert aanzienlijk beter dan andere modellen van vergelijkbare grootte. Daarnaast evenaart of overtreft het CodeLlama-34B, een model dat meer dan twee keer zo groot is. Hoewel DeepSeekCoder-33B het best presterende model is voor codecompletering voor talen met veel bronnen, ontdekken we dat StarCoder2-15B beter presteert op wiskundige en code-redeneerbenchmarks, evenals op verschillende talen met weinig bronnen. We maken de modelgewichten beschikbaar onder een OpenRAIL-licentie en zorgen voor volledige transparantie over de trainingsgegevens door de SoftWare Heritage persistent IDentifiers (SWHIDs) van de broncodedata vrij te geven.
Recurrente neurale netwerken (RNN's) hebben snelle inferentie en schalen efficiënt op lange sequenties, maar ze zijn moeilijk te trainen en lastig op te schalen. Wij stellen Hawk voor, een RNN met gegate lineaire recurrenties, en Griffin, een hybride model dat gegate lineaire recurrenties combineert met lokale aandacht. Hawk overtreft de gerapporteerde prestaties van Mamba op downstream taken, terwijl Griffin de prestaties van Llama-2 evenaart ondanks dat het getraind is op meer dan 6 keer minder tokens. We laten ook zien dat Griffin kan extrapoleren op sequenties die aanzienlijk langer zijn dan die tijdens de training zijn gezien. Onze modellen evenaren de hardware-efficiëntie van Transformers tijdens de training, en tijdens de inferentie hebben ze een lagere latentie en aanzienlijk hogere doorvoer. We schalen Griffin op tot 14B parameters en leggen uit hoe we onze modellen kunnen sharden voor efficiënte gedistribueerde training.
Traditioneel deep learning negeert vaak bytes, de basiseenheden van de digitale wereld, waar alle vormen van informatie en operaties worden gecodeerd en gemanipuleerd in binair formaat. Geïnspireerd door het succes van voorspelling van de volgende token in natuurlijke taalverwerking, introduceren we bGPT, een model met voorspelling van de volgende byte om de digitale wereld te simuleren. bGPT evenaart gespecialiseerde modellen in prestaties over verschillende modaliteiten, waaronder tekst, audio en afbeeldingen, en biedt nieuwe mogelijkheden voor het voorspellen, simuleren en diagnosticeren van algoritme- of hardwaregedrag. Het heeft het proces van het omzetten van symbolische muziekdata bijna feilloos gerepliceerd, met een lage foutmarge van 0,0011 bits per byte bij het omzetten van ABC-notatie naar MIDI-formaat. Daarnaast toont bGPT uitzonderlijke capaciteiten in het simuleren van CPU-gedrag, met een nauwkeurigheid van meer dan 99,99% bij het uitvoeren van verschillende operaties. Door gebruik te maken van voorspelling van de volgende byte kunnen modellen zoals bGPT rechtstreeks leren van enorme hoeveelheden binaire data, waardoor ze effectief de complexe patronen van de digitale wereld kunnen simuleren.
De kwaliteit van de data en annotaties bepaalt de bovengrens voor de kwaliteit van een downstream model. Hoewel er grote tekstcorpora en beeld-tekstparen bestaan, is het veel moeilijker om hoogwaardige video-tekstdata te verzamelen. Ten eerste is handmatige labeling tijdrovender, omdat een annotator een volledige video moet bekijken. Ten tweede hebben video's een temporele dimensie, bestaande uit meerdere scènes die samengevoegd zijn en waarin meerdere acties worden getoond. Om een videodataset met hoogwaardige bijschriften te creëren, stellen we daarom een automatische aanpak voor die gebruikmaakt van multimodale invoer, zoals tekstuele videobeschrijvingen, ondertitels en individuele videoframes. Specifiek selecteren we 3,8 miljoen hoogwaardige video's uit het publiekelijk beschikbare HD-VILA-100M-dataset. We splitsen deze vervolgens in semantisch consistente videoclips en passen meerdere cross-modaliteit leraarmodellen toe om bijschriften voor elke video te verkrijgen. Vervolgens finetunen we een retrieval-model op een kleine subset waarin het beste bijschrift van elke video handmatig is geselecteerd, en gebruiken we dit model vervolgens op de volledige dataset om het beste bijschrift als annotatie te selecteren. Op deze manier verkrijgen we 70 miljoen video's die gepaard gaan met hoogwaardige tekstbijschriften. We noemen deze dataset Panda-70M. We tonen de waarde van de voorgestelde dataset aan voor drie downstream taken: videobijschrijving, video- en tekstretrieval, en tekstgestuurde videogeneratie. De modellen die getraind zijn op de voorgestelde data scoren aanzienlijk beter op de meeste metrieken voor alle taken.
We behandelen de besturing van humanoïden in de echte wereld als een next token prediction-probleem, vergelijkbaar met het voorspellen van het volgende woord in taal. Ons model is een causale transformer die wordt getraind via autoregressieve voorspelling van sensomotorische trajecten. Om rekening te houden met de multimodale aard van de data, voeren we de voorspelling uit op een manier die is afgestemd op de modaliteit, waarbij we voor elk invoertoken het volgende token uit dezelfde modaliteit voorspellen. Deze algemene formulering stelt ons in staat om data met ontbrekende modaliteiten te benutten, zoals videotrajecten zonder acties. We trainen ons model op een verzameling gesimuleerde trajecten afkomstig van eerdere neurale netwerkbeleidsregels, modelgebaseerde controllers, motion capture-data en YouTube-video's van mensen. We laten zien dat ons model een volledige humanoïde in staat stelt om zero-shot te lopen in San Francisco. Ons model kan worden overgedragen naar de echte wereld, zelfs wanneer het is getraind op slechts 27 uur aan loopdata, en kan generaliseren naar commando's die niet tijdens de training zijn gezien, zoals achteruit lopen. Deze bevindingen suggereren een veelbelovende weg naar het leren van uitdagende besturingstaken in de echte wereld door generatieve modellering van sensomotorische trajecten.
We presenteren MOSAIC, een modulaire architectuur voor huishoudrobots om complexe samenwerkende taken uit te voeren, zoals koken met alledaagse gebruikers. MOSAIC werkt nauw samen met mensen, communiceert met gebruikers via natuurlijke taal, coördineert meerdere robots en beheert een open vocabulaire van alledaagse objecten. In de kern maakt MOSAIC gebruik van modulariteit: het benut meerdere grootschalige vooraf getrainde modellen voor algemene taken zoals taal- en beeldherkenning, terwijl het gestroomlijnde modules gebruikt die zijn ontworpen voor taakspecifieke controle. We evalueren MOSAIC uitgebreid in 60 end-to-end tests waarbij twee robots samenwerken met een menselijke gebruiker om een combinatie van 6 recepten te bereiden. We testen ook individuele modules uitgebreid met 180 episodes van visuomotorisch oppakken, 60 episodes van voorspelling van menselijke bewegingen en 46 online gebruikersevaluaties van de taakplanner. We tonen aan dat MOSAIC efficiënt kan samenwerken met mensen door het volledige systeem end-to-end te laten draaien met een echte menselijke gebruiker, waarbij 68,3% (41/60) van de samenwerkende kooktests van 6 verschillende recepten wordt voltooid met een subtakvoltooiingspercentage van 91,6%. Tot slot bespreken we de beperkingen van het huidige systeem en de spannende open uitdagingen in dit domein. De projectwebsite is te vinden op https://portal-cornell.github.io/MOSAIC/.
Diffusiemodellen hebben grote successen geboekt bij het synthetiseren van hoogwaardige afbeeldingen. Het genereren van afbeeldingen met hoge resolutie met diffusiemodellen blijft echter een uitdaging vanwege de enorme rekenkosten, wat resulteert in een onaanvaardbare latentie voor interactieve toepassingen. In dit artikel stellen we DistriFusion voor om dit probleem aan te pakken door parallellisme over meerdere GPU's te benutten. Onze methode splitst de modelinvoer in meerdere patches en wijst elke patch toe aan een GPU. Een naïeve implementatie van een dergelijk algoritme verbreekt echter de interactie tussen patches en verliest aan kwaliteit, terwijl het opnemen van een dergelijke interactie enorme communicatie-overhead met zich meebrengt. Om dit dilemma te overwinnen, observeren we de hoge gelijkenis tussen de invoer van aangrenzende diffusiestappen en stellen we displaced patch parallellisme voor, dat gebruikmaakt van het sequentiële karakter van het diffusieproces door vooraf berekende kenmerkkaarten van de vorige tijdstap te hergebruiken om context te bieden voor de huidige stap. Onze methode ondersteunt daarom asynchrone communicatie, die kan worden gepipelineerd door berekening. Uitgebreide experimenten tonen aan dat onze methode kan worden toegepast op de recente Stable Diffusion XL zonder kwaliteitsverlies en een snelheidsverbetering tot 6,1 keer kan bereiken op acht NVIDIA A100's in vergelijking met één. Onze code is openbaar beschikbaar op https://github.com/mit-han-lab/distrifuser.
Recent onderzoek heeft aangetoond dat attention-gebaseerde taalmodellen uitblinken in recall, het vermogen om generaties te verankeren in tokens die eerder in de context zijn gezien. De efficiëntie van attention-gebaseerde modellen wordt echter beperkt tijdens inferentie door het agressieve geheugengebruik van de KV-cache. In dit werk onderzoeken we of we de efficiëntie van taalmodellen kunnen verbeteren (bijvoorbeeld door het geheugengebruik te verminderen) zonder in te leveren op recall. Door experimenten en theorie toe te passen op een breed scala aan architecturen, identificeren we een belangrijke afweging tussen de grootte van de modelstatus en het recall-vermogen. We laten zien dat efficiënte alternatieven voor attention (bijvoorbeeld H3, Mamba, RWKV) een vaste grootte van de recurrente status behouden, maar moeite hebben met recall. We stellen BASED voor, een eenvoudige architectuur die lineaire en sliding window attention combineert. Door de venstergrootte van BASED en de dimensie van de lineaire attention-feature te variëren, kunnen we de grootte van de modelstatus aanpassen en de pareto-grens van de recall-geheugen afwegingcurve doorlopen, waarbij we aan de ene kant de volledige kwaliteit van attention herstellen en aan de andere kant de kleine modelstatus van attention-alternatieven behouden. We trainen taalmodellen tot 1,3 miljard parameters en laten zien dat BASED de sterkste sub-kwadratische modellen (bijvoorbeeld Mamba) evenaart in perplexiteit en ze overtreft op real-world recall-intensieve taken met 6,22 nauwkeurigheidspunten. Implementaties van lineaire attention zijn vaak minder efficiënt dan geoptimaliseerde standaard attention-implementaties. Om BASED concurrerend te maken, ontwikkelen we IO-bewuste algoritmen die een 24x hogere doorvoer mogelijk maken bij taalgeneratie dan FlashAttention-2, bij het genereren van 1024 tokens met 1,3 miljard parameter modellen. Code voor dit werk is beschikbaar op: https://github.com/HazyResearch/based.
Grote taalmodellen tonen groot potentieel in het genereren en optimaliseren van code. Veelgebruikte steekproefmethoden zoals Nucleus Sampling vergroten de diversiteit van generatie, maar produceren vaak herhaalde steekproeven bij lage temperaturen en onsamenhangende steekproeven bij hoge temperaturen. Bovendien moet de temperatuur- coëfficiënt voor elke taak worden afgesteld, wat de bruikbaarheid beperkt. Wij presenteren Priority Sampling, een eenvoudige en deterministische steekproeftechniek die unieke steekproeven genereert, geordend op basis van het vertrouwen van het model. Elke nieuwe steekproef breidt de niet-uitgebreide token uit met de hoogste waarschijnlijkheid in de uitgebreide zoekboom. Daarnaast ondersteunt Priority Sampling generatie op basis van reguliere expressies, wat een controleerbaar en gestructureerd verkenningsproces biedt. Priority Sampling presteert beter dan Nucleus Sampling voor elk aantal steekproeven en verbetert de prestaties van het oorspronkelijke model van 2,87% naar 5% verbetering ten opzichte van -Oz. Bovendien overtreft het de autotuner die wordt gebruikt voor het genereren van labels voor de training van het oorspronkelijke model in slechts 30 steekproeven.
Het Latent Consistency Model (LCM) breidt het Consistency Model uit naar de latente ruimte en maakt gebruik van de techniek van guided consistency distillation om indrukwekkende prestaties te behalen in het versnellen van tekst-naar-beeld synthese. We hebben echter geobserveerd dat LCM moeite heeft om afbeeldingen te genereren die zowel helderheid als gedetailleerde complexiteit vertonen. Om deze beperking aan te pakken, gaan we eerst in op de onderliggende oorzaken en lichten deze toe. Ons onderzoek identificeert dat het primaire probleem voortkomt uit fouten in drie verschillende gebieden. Als gevolg hiervan introduceren we Trajectory Consistency Distillation (TCD), dat bestaat uit een trajectconsistentiefunctie en strategische stochastische sampling. De trajectconsistentiefunctie vermindert de distillatiefouten door het bereik van de zelfconsistentie randvoorwaarde te verbreden en TCD de mogelijkheid te geven om het volledige traject van de Probability Flow ODE nauwkeurig te volgen. Daarnaast is strategische stochastische sampling specifiek ontworpen om de opgestapelde fouten die inherent zijn aan multi-step consistency sampling te omzeilen, en is zorgvuldig afgestemd om het TCD-model aan te vullen. Experimenten tonen aan dat TCD niet alleen de beeldkwaliteit aanzienlijk verbetert bij een laag aantal functie-evaluaties (NFEs), maar ook gedetailleerdere resultaten oplevert vergeleken met het lerarenmodel bij een hoog aantal NFEs.
Novel-view synthese via diffusiemodellen heeft opmerkelijke potentie getoond voor het genereren van diverse en hoogwaardige afbeeldingen. Toch leidt het onafhankelijke proces van beeldgeneratie in deze gangbare methoden tot uitdagingen bij het behouden van consistentie tussen meerdere aanzichten. Om dit aan te pakken, introduceren we ViewFusion, een innovatief, trainingsvrij algoritme dat naadloos kan worden geïntegreerd in bestaande vooraf getrainde diffusiemodellen. Onze aanpak maakt gebruik van een autoregressieve methode die impliciet gebruikmaakt van eerder gegenereerde aanzichten als context voor de generatie van het volgende aanzicht, waardoor robuuste consistentie tussen meerdere aanzichten wordt gewaarborgd tijdens het novel-view generatieproces. Door een diffusieproces dat bekende aanzichten combineert via geïnterpoleerde denoising, breidt ons framework modellen die op één aanzicht zijn geconditioneerd succesvol uit naar meerdere aanzichten zonder aanvullende fine-tuning. Uitgebreide experimentele resultaten tonen de effectiviteit van ViewFusion aan in het genereren van consistente en gedetailleerde novel views.