Dagelijks geselecteerde AI onderzoekspapers met vertalingen
De recente doorbraken in machine learning zijn voornamelijk toe te schrijven aan schaal: namelijk grootschalige aandacht-gebaseerde architecturen en datasets van ongekende omvang. Dit artikel onderzoekt de impact van training op schaal voor schaken. In tegenstelling tot traditionele schaakengines die vertrouwen op complexe heuristieken, expliciete zoekalgoritmen, of een combinatie van beide, trainen we een transformermodel met 270M parameters met supervised learning op een dataset van 10 miljoen schaakpartijen. We annoteren elk bord in de dataset met actiewaarden die worden geleverd door de krachtige Stockfish 16-engine, wat resulteert in ongeveer 15 miljard datapunten. Ons grootste model bereikt een Lichess blitz Elo van 2895 tegen menselijke tegenstanders en lost succesvol een reeks uitdagende schaakpuzzels op, zonder enige domeinspecifieke aanpassingen of expliciete zoekalgoritmen. We laten ook zien dat ons model de policy- en waardenetwerken van AlphaZero (zonder MCTS) en GPT-3.5-turbo-instruct overtreft. Een systematisch onderzoek naar de grootte van het model en de dataset toont aan dat sterke schaakprestaties alleen ontstaan bij voldoende schaal. Om onze resultaten te valideren, voeren we een uitgebreide reeks ablatie-onderzoeken uit naar ontwerpkeuzes en hyperparameters.
Schermgebruikersinterfaces (UI's) en infographics, die een vergelijkbare visuele taal en ontwerpprincipes delen, spelen een belangrijke rol in menselijke communicatie en mens-machine-interactie. Wij introduceren ScreenAI, een vision-language model dat gespecialiseerd is in het begrijpen van UI's en infographics. Ons model verbetert de PaLI-architectuur met de flexibele patching-strategie van pix2struct en wordt getraind op een unieke mix van datasets. Centraal in deze mix staat een nieuwe schermannotatietaak waarin het model het type en de locatie van UI-elementen moet identificeren. We gebruiken deze tekstannotaties om schermen te beschrijven aan Large Language Models en genereren automatisch op grote schaal trainingsdatasets voor vraag-antwoord (QA), UI-navigatie en samenvatting. We voeren ablatiestudies uit om de impact van deze ontwerpkeuzes aan te tonen. Met slechts 5B parameters behaalt ScreenAI nieuwe state-of-the-art-resultaten op UI- en infographics-gebaseerde taken (Multi-page DocVQA, WebSRC, MoTIF en Widget Captioning), en nieuwe best-in-class prestaties op andere taken (Chart QA, DocVQA en InfographicVQA) in vergelijking met modellen van vergelijkbare grootte. Tot slot brengen we drie nieuwe datasets uit: één gericht op de schermannotatietaak en twee andere gericht op vraag-antwoord.
Direct alignment from preferences (DAP)-methoden, zoals DPO, zijn recent naar voren gekomen als efficiënte alternatieven voor reinforcement learning from human feedback (RLHF), die geen apart beloningsmodel vereisen. De voorkeursdatasets die in DAP-methoden worden gebruikt, worden echter meestal voorafgaand aan de training verzameld en nooit bijgewerkt, waardoor de feedback puur offline is. Bovendien worden de reacties in deze datasets vaak gesamplet uit een taalmodel dat verschilt van het model dat wordt uitgelijnd, en aangezien het model tijdens de training evolueert, is de uitlijningsfase onvermijdelijk off-policy. In deze studie stellen we dat online feedback essentieel is en DAP-methoden verbetert. Onze methode, online AI feedback (OAIF), gebruikt een LLM als annotator: bij elke trainingsiteratie samplet we twee reacties van het huidige model en vragen we de LLM-annotator om te kiezen welke de voorkeur heeft, waardoor online feedback wordt geboden. Ondanks de eenvoud tonen we via menselijke evaluatie in verschillende taken aan dat OAIF zowel offline DAP- als RLHF-methoden overtreft. We laten verder zien dat de feedback die in OAIF wordt gebruikt eenvoudig te controleren is, via instructieprompts aan de LLM-annotator.
3D-contentcreatie heeft aanzienlijke vooruitgang geboekt op het gebied van zowel kwaliteit als snelheid. Hoewel huidige feed-forward-modellen in enkele seconden 3D-objecten kunnen produceren, wordt hun resolutie beperkt door de intensieve rekenkracht die tijdens de training vereist is. In dit artikel introduceren we het Large Multi-View Gaussian Model (LGM), een nieuw framework ontworpen om hoogwaardige 3D-modellen te genereren vanuit tekstprompts of afbeeldingen met één weergave. Onze belangrijkste inzichten zijn tweeledig: 1) 3D-representatie: We stellen multi-view Gaussiaanse kenmerken voor als een efficiënte maar krachtige representatie, die vervolgens samengevoegd kunnen worden voor differentieerbaar renderen. 2) 3D-backbone: We introduceren een asymmetrische U-Net als een hoogdoorvoer-backbone die werkt op multi-view afbeeldingen, die gegenereerd kunnen worden vanuit tekst of een afbeelding met één weergave door gebruik te maken van multi-view diffusiemodellen. Uitgebreide experimenten tonen de hoge kwaliteit en efficiëntie van onze aanpak aan. Opmerkelijk is dat we de snelle snelheid behouden om 3D-objecten binnen 5 seconden te genereren, terwijl we de trainingsresolutie verhogen naar 512, waardoor hoogwaardige 3D-contentgeneratie wordt bereikt.
We presenteren EfficientViT-SAM, een nieuwe familie van versnelde 'segment anything'-modellen. We behouden de lichtgewicht prompt-encoder en masker-decoder van SAM, terwijl we de zware beeldencoder vervangen door EfficientViT. Voor de training beginnen we met kennisdistillatie van de SAM-ViT-H beeldencoder naar EfficientViT. Vervolgens voeren we end-to-end training uit op de SA-1B dataset. Dankzij de efficiëntie en capaciteit van EfficientViT, levert EfficientViT-SAM een gemeten TensorRT-versnelling van 48.9x op de A100 GPU ten opzichte van SAM-ViT-H, zonder in te leveren op prestaties. Onze code en vooraf getrainde modellen zijn vrijgegeven op https://github.com/mit-han-lab/efficientvit.
Transformer-gebaseerde grote taalmodellen (LLM's) worden nu ingezet voor honderden miljoenen gebruikers. LLM-inferentie wordt meestal uitgevoerd op batches van sequenties die een prefix delen, zoals few-shot voorbeelden of een systeemprompt voor een chatbot. Decodering in deze grote-batch setting kan worden beperkt door de aandachtoperatie, die grote sleutel-waarde (KV) caches uit het geheugen leest en inefficiënte matrix-vectorproducten berekent voor elke sequentie in de batch. In dit werk introduceren we Hydragen, een hardwarebewuste exacte implementatie van aandacht met gedeelde prefixes. Hydragen berekent aandacht over de gedeelde prefix en unieke suffixen afzonderlijk. Deze decompositie maakt efficiënte prefix-aandacht mogelijk door queries over sequenties te batchen, wat redundante geheugenleesoperaties vermindert en het gebruik van hardwarevriendelijke matrixvermenigvuldigingen mogelijk maakt. Onze methode kan de end-to-end LLM-doorvoer met tot 32x verbeteren ten opzichte van competitieve baselines, waarbij de snelheidswinst toeneemt met de batchgrootte en de lengte van de gedeelde prefix. Hydragen maakt ook het gebruik van zeer lange gedeelde contexten mogelijk: bij een hoge batchgrootte vermindert het verhogen van de prefixlengte van 1K naar 16K tokens de doorvoer van Hydragen met minder dan 15%, terwijl de doorvoer van baselines met meer dan 90% daalt. Hydragen generaliseert verder dan eenvoudige prefix-suffix decompositie en kan worden toegepast op boomgebaseerde prompt-delingpatronen, waardoor we de inferentietijd op competitieve programmeerproblemen met 55% kunnen verminderen.
Lineaire aandachtssystemen hebben potentieel getoond voor het verbeteren van de efficiëntie van Transformers, waarbij de kwadratische complexiteit van aandacht wordt teruggebracht tot lineair in sequentielengte. Dit biedt spannende mogelijkheden voor (1) het trainen van lineaire Transformers vanaf nul, (2) "fine-tuned conversie" van taakspecifieke Transformers naar lineaire versies die de taakprestaties herstellen, en (3) "pretrained conversie" van Transformers zoals grote taalmodelen naar lineaire versies die kunnen worden gefinetuned voor downstream taken. Echter, lineaire aandachtssystemen presteren vaak minder goed dan standaard softmax-aandacht in kwaliteit. Om dit prestatiegat te dichten, constateren we dat eerdere lineaire aandachtssystemen essentiële eigenschappen van softmax-aandacht missen die gekoppeld zijn aan goede prestaties: laag-entropie (of "spiky") gewichten en dot-product monotoniciteit. We observeren verder verrassend eenvoudige feature maps die deze eigenschappen behouden en de prestaties van softmax evenaren, maar inefficiënt zijn om te berekenen in lineaire aandacht. Daarom stellen we Hedgehog voor, een leerbaar lineair aandachtssysteem dat de spiky en monotone eigenschappen van softmax-aandacht behoudt terwijl het lineaire complexiteit handhaaft. Hedgehog gebruikt eenvoudige trainbare MLPs om aandachtgewichten te produceren die softmax-aandacht nabootsen. Experimenten tonen aan dat Hedgehog meer dan 99% van de kwaliteit van standaard Transformers herstelt in train-from-scratch en fine-tuned conversie instellingen, en presteert beter dan eerdere lineaire aandachtssystemen met tot 6 perplexiteitspunten op WikiText-103 met causale GPTs, en tot 8,7 GLUE-scorepunten op gefinetunde bidirectionele BERTs. Hedgehog maakt ook pretrained conversie mogelijk. Het omzetten van een pretrained GPT-2 naar een lineaire aandachtvariant behaalt state-of-the-art 16,7 perplexiteit op WikiText-103 voor 125M subkwadratische decodermodellen. We zetten ten slotte een pretrained Llama-2 7B om in een levensvatbare lineaire aandacht Llama. Met low-rank aanpassing behaalt Hedgehog-Llama2 7B 28,1 hogere ROUGE-1 punten ten opzichte van het basisstandaard aandachtmodel, waar eerdere lineaire aandachtssystemen leiden tot dalingen van 16,5 punten.
Grote taalmodellen lossen steeds vaker taken op waarvan algemeen wordt aangenomen dat ze menselijk redeneervermogen vereisen. Deze modellen presteren echter nog steeds zeer slecht op benchmarks voor algemene intelligentie, zoals het Abstraction and Reasoning Corpus (ARC). In dit artikel benaderen we ARC als een programmeer-voorbeelden-probleem en introduceren we een nieuwe en schaalbare methode voor zelfverbetering van taalmodellen, genaamd Code Iteration (CodeIt). Onze methode wisselt af tussen 1) programma-bemonstering en hindsight-relabeling, en 2) leren van geprioriteerde ervaringsherhaling. Door het doel van een episode (d.w.z. de doelprogramma-uitvoer gegeven invoer) te relabelen naar de gerealiseerde uitvoer die door het bemonsterde programma wordt geproduceerd, gaat onze methode effectief om met de extreme schaarste van beloningen in programma-synthese. Door CodeIt toe te passen op de ARC-dataset, tonen we aan dat geprioriteerde hindsight-herhaling, samen met pre-training en data-augmentatie, leidt tot succesvolle inter-task-generalizatie. CodeIt is de eerste neuro-symbolische benadering die schaalbaar is naar de volledige ARC-evaluatiedataset. Onze methode lost 15% van de ARC-evaluatietaken op, wat staat-of-the-art prestaties oplevert en bestaande neurale en symbolische baselines overtreft.
Het genereren van langdurige 44,1 kHz stereo-audio vanuit tekstprompts kan rekenintensief zijn. Bovendien pakken de meeste eerdere werken niet aan dat muziek en geluidseffecten van nature variëren in duur. Ons onderzoek richt zich op de efficiënte generatie van langdurige, variabele-lengte stereo-muziek en geluiden op 44,1 kHz met behulp van tekstprompts en een generatief model. Stable Audio is gebaseerd op latente diffusie, met zijn latent gedefinieerd door een volledig convolutionele variational autoencoder. Het wordt geconditioneerd op tekstprompts en timing-embeddings, wat een fijne controle mogelijk maakt over zowel de inhoud als de lengte van de gegenereerde muziek en geluiden. Stable Audio is in staat om stereosignalen van maximaal 95 seconden op 44,1 kHz te renderen in 8 seconden op een A100 GPU. Ondanks zijn reken-efficiëntie en snelle inferentie, behoort het tot de beste in twee publieke tekst-naar-muziek en -audio benchmarks en kan het, in tegenstelling tot state-of-the-art modellen, muziek met structuur en stereogeluiden genereren.
In dit artikel presenteren we een nieuwe methode die de inferentielatentie van modellen vermindert tijdens de gedistribueerde implementatie van Large Language Models (LLMs). Onze bijdrage is een geoptimaliseerd inferentie-implementatieschema dat de huidige beperkingen van state-of-the-art kwantiseringskernen aanpakt wanneer deze in combinatie met Tensor Parallel (TP) worden gebruikt. Onze methode behoudt de gegevenslocatie in GPU-geheugentoegangspatronen en benut a priori kennis van TP om de globale communicatie te verminderen. We demonstreren een versnelling tot 1,81x ten opzichte van bestaande methoden voor Llama-70B en tot 1,78x voor IBM WatsonX's Granite-20B MLP-laagprobleemgroottes op A100- en H100 NVIDIA DGX-systemen voor diverse TP-instellingen.
N:M gestructureerde sparsity heeft aanzienlijke belangstelling gewekt vanwege de relatief bescheiden overhead en verbeterde efficiëntie. Bovendien is deze vorm van sparsity zeer aantrekkelijk voor het verminderen van het geheugenverbruik vanwege de beperkte representatie-overhead. Er zijn inspanningen geleverd om trainingsmethoden te ontwikkelen voor N:M gestructureerde sparsity, waarbij de focus voornamelijk ligt op regio's met lage sparsity (circa 50%). Desalniettemin neemt de prestaties van modellen die met deze methoden zijn getraind, doorgaans af wanneer ze worden geconfronteerd met regio's met hoge sparsity (>80%). In dit werk onderzoeken we de effectiviteit van bestaande sparse trainingsmethoden in regio's met hoge sparsity en stellen we dat deze methoden er niet in slagen om de modelkwaliteit op hetzelfde niveau te houden als in regio's met lage sparsity. We tonen aan dat de belangrijkste factor die bijdraagt aan dit verschil de aanwezigheid is van verhoogde niveaus van geïnduceerde ruis in de gradientmagnitudes. Om dit ongewenste effect te verminderen, passen we vervalmechanismen toe om de stroom van gradients naar gesnoeide elementen geleidelijk te beperken. Onze aanpak verbetert de modelkwaliteit met respectievelijk tot 2% en 5% in visuele en taalmodelmodellen in het hoge sparsity-regime. We evalueren ook de afweging tussen modelnauwkeurigheid en trainingscomputekosten in termen van FLOPs. Bij gelijkblijvende trainings-FLOPs levert onze methode betere prestaties vergeleken met conventionele sparse trainingsmethoden, met een nauwkeurigheidsverbetering van tot 2%. De broncode is beschikbaar op https://github.com/abhibambhaniya/progressive_gradient_flow_nm_sparsity.