Dagelijks geselecteerde AI onderzoekspapers met vertalingen
De reproduceerbaarheid en transparantie van grote taalmodellen zijn cruciaal voor het bevorderen van open onderzoek, het waarborgen van de betrouwbaarheid van resultaten, en het mogelijk maken van onderzoek naar gegevens- en modelvooroordelen, evenals potentiële risico's. Daarom brengen we OpenELM uit, een state-of-the-art open taalmodel. OpenELM gebruikt een laaggewijze schaalstrategie om parameters efficiënt toe te wijzen binnen elke laag van het transformermodel, wat leidt tot verbeterde nauwkeurigheid. Bijvoorbeeld, met een parameterbudget van ongeveer één miljard parameters, vertoont OpenELM een verbetering van 2,36% in nauwkeurigheid vergeleken met OLMo, terwijl het 2 keer minder vooraf getrainde tokens vereist. Afwijkend van eerdere praktijken die alleen modelgewichten en inferentiecode verstrekken, en vooraf trainen op privé datasets, omvat onze release het complete raamwerk voor training en evaluatie van het taalmodel op publiek beschikbare datasets, inclusief trainingslogboeken, meerdere checkpoints, en vooraf trainingsconfiguraties. We brengen ook code uit om modellen om te zetten naar de MLX-bibliotheek voor inferentie en fine-tuning op Apple-apparaten. Deze uitgebreide release heeft als doel de open onderzoeksgemeenschap te versterken en te empoweren, en de weg te effenen voor toekomstige open onderzoeksinspanningen. Onze broncode, samen met vooraf getrainde modelgewichten en trainingsrecepten, is beschikbaar op https://github.com/apple/corenet. Daarnaast kunnen \model modellen worden gevonden op HuggingFace op: https://huggingface.co/apple/OpenELM.
Sparse Mixtures of Experts (SMoE) schaalt de modelcapaciteit zonder significante toename van trainings- en inferentiekosten, maar vertoont de volgende twee problemen: (1) Lage expertactivatie, waarbij slechts een kleine subset van experts wordt geactiveerd voor optimalisatie. (2) Gebrek aan fijnmazige analytische mogelijkheden voor meerdere semantische concepten binnen individuele tokens. Wij stellen Multi-Head Mixture-of-Experts (MH-MoE) voor, dat een multi-head mechanisme gebruikt om elk token op te splitsen in meerdere sub-tokens. Deze sub-tokens worden vervolgens toegewezen aan en parallel verwerkt door een diverse set experts, en naadloos geherintegreerd in de oorspronkelijke tokenvorm. Het multi-head mechanisme stelt het model in staat om collectief aandacht te besteden aan informatie uit verschillende representatieruimtes binnen verschillende experts, terwijl het de expertactivatie aanzienlijk verbetert, waardoor het contextbegrip verdiept en overfitting wordt verminderd. Bovendien is onze MH-MoE eenvoudig te implementeren en ontkoppeld van andere SMoE-optimalisatiemethoden, waardoor het gemakkelijk te integreren is met andere SMoE-modellen voor verbeterde prestaties. Uitgebreide experimentele resultaten over drie taken: Engels-gericht taalmodeleren, meertalig taalmodeleren en gemaskerde multimodale modelleertaken, demonstreren de effectiviteit van MH-MoE.
Dit technische rapport introduceert Pegasus-1, een multimodaal taalmodel gespecialiseerd in het begrijpen van en interactie met videocontent via natuurlijke taal. Pegasus-1 is ontworpen om de unieke uitdagingen aan te pakken die videodata met zich meebrengen, zoals het interpreteren van spatiotemporele informatie, om zo een genuanceerd begrip van videocontent te bieden over verschillende lengtes heen. Dit technische rapport geeft een overzicht van de architectuur van Pegasus-1, de trainingsstrategieën en de prestaties in benchmarks op het gebied van videoconversatie, zero-shot video-vraagbeantwoording en videosamenvatting. We onderzoeken ook de kwalitatieve kenmerken van Pegasus-1, waarbij we zowel de mogelijkheden als de beperkingen demonstreren, om lezers een evenwichtig beeld te geven van de huidige staat en de toekomstige richting van het model.
Recente vooruitgang in grootschalige zero-shot spraaksynthese is aanzienlijk bevorderd door taalmodellen en diffusiemodellen. Het generatieproces van beide methoden is echter traag en rekenintensief. Efficiënte spraaksynthese met een lager rekenbudget om kwaliteit te bereiken die vergelijkbaar is met eerder werk, blijft een grote uitdaging. In dit artikel presenteren we FlashSpeech, een grootschalig zero-shot spraaksynthesesysteem met ongeveer 5% van de inferentietijd in vergelijking met eerder werk. FlashSpeech is gebouwd op het latent consistency model en past een nieuwe adversarial consistency training-aanpak toe die vanaf nul kan worden getraind zonder dat een vooraf getraind diffusiemodel als leraar nodig is. Bovendien verbetert een nieuwe prosodiegeneratormodule de diversiteit van prosodie, waardoor het ritme van de spraak natuurlijker klinkt. De generatieprocessen van FlashSpeech kunnen efficiënt worden uitgevoerd met één of twee samplingstappen, terwijl een hoge audiokwaliteit en een hoge gelijkenis met de audioprompt voor zero-shot spraakgeneratie behouden blijven. Onze experimentele resultaten tonen de superieure prestaties van FlashSpeech aan. Opmerkelijk is dat FlashSpeech ongeveer 20 keer sneller kan zijn dan andere zero-shot spraaksynthesesystemen, terwijl vergelijkbare prestaties worden gehandhaafd wat betreft stemkwaliteit en gelijkenis. Bovendien toont FlashSpeech zijn veelzijdigheid door efficiënt taken uit te voeren zoals stemconversie, spraakbewerking en diverse spraaksampling. Audiovoorbeelden zijn te vinden op https://flashspeech.github.io/.
Grote Taalmodellen (LLMs) hebben opmerkelijke vooruitgang geboekt in het verwerken van uitgebreide contexten, waarbij de Key-Value (KV) cache een cruciale rol speelt bij het verbeteren van hun prestaties. De groei van de KV cache als reactie op toenemende invoerlengte brengt echter uitdagingen met zich mee voor geheugen- en tijdefficiëntie. Om dit probleem aan te pakken, introduceert dit artikel SnapKV, een innovatieve en fine-tuning-vrije aanpak die de grootte van de KV cache efficiënt minimaliseert, terwijl deze nog steeds vergelijkbare prestaties levert in praktische toepassingen. Wij ontdekken dat elke aandachtskop (attention head) in het model consistent gericht is op specifieke prompt-attentiefuncties tijdens het genereren. Tegelijkertijd kan dit robuuste patroon worden verkregen uit een 'observatie'-venster aan het einde van de prompts. Gebaseerd op dit inzicht comprimeert SnapKV automatisch KV caches door gegroepeerde belangrijke KV-posities te selecteren voor elke aandachtskop. Onze aanpak vermindert aanzienlijk de toenemende rekenkosten en geheugenvoetafdruk bij het verwerken van lange invoerreeksen. Specifiek behaalt SnapKV een consistente decodersnelheid met een 3,6x toename in generatiesnelheid en een 8,2x verbetering in geheugenefficiëntie vergeleken met de baseline bij het verwerken van invoer van 16K tokens. Tegelijkertijd behoudt het vergelijkbare prestaties met baseline-modellen over 16 lange-reeksen datasets. Bovendien kan SnapKV tot 380K contexttokens verwerken op een enkele A100-80GB GPU met behulp van een HuggingFace-implementatie met minimale aanpassingen, waarbij slechts een verwaarloosbare nauwkeurigheidsdaling wordt waargenomen in de Needle-in-a-Haystack-test. Verdere uitgebreide studies suggereren het potentieel van SnapKV voor praktische toepassingen.
Diffusiemodellen (DMs) hebben zich gevestigd als de state-of-the-art benadering voor generatieve modellering in het visuele domein en daarbuiten. Een cruciaal nadeel van DMs is hun trage sampling snelheid, die afhankelijk is van vele sequentiële functie-evaluaties door grote neurale netwerken. Sampling van DMs kan worden gezien als het oplossen van een differentiaalvergelijking via een gediscretiseerde set van ruisniveaus, bekend als het sampling schema. Terwijl eerdere werken zich voornamelijk richtten op het afleiden van efficiënte oplossers, is er weinig aandacht besteed aan het vinden van optimale sampling schema's, en de gehele literatuur vertrouwt op handmatig gemaakte heuristieken. In dit werk stellen we voor het eerst een algemene en principiële benadering voor om de sampling schema's van DMs te optimaliseren voor hoogwaardige outputs, genaamd Align Your Steps. We maken gebruik van methoden uit de stochastische calculus en vinden optimale schema's die specifiek zijn voor verschillende oplossers, getrainde DMs en datasets. We evalueren onze nieuwe benadering op verschillende benchmarks voor beeld-, video- en 2D-toydatasynthese, met behulp van een verscheidenheid aan verschillende samplers, en observeren dat onze geoptimaliseerde schema's in bijna alle experimenten beter presteren dan eerdere handmatig gemaakte schema's. Onze methode toont het onbenutte potentieel van sampling schema-optimalisatie, vooral in het regime van synthese met weinig stappen.
Veel bestaand werk heeft de mogelijkheden van de transformer-architectuur geanalyseerd door het representatievermogen ervan te beschrijven met formele modellen van berekening. Tot nu toe lag de focus echter op het analyseren van de architectuur in termen van taalacceptatie. Wij stellen dat dit een ongeschikt probleem is in de studie van taalmodelen (LMs), die per definitie waarschijnlijkheidsverdelingen over strings zijn. In dit artikel richten we ons op de relatie tussen transformer LMs en n-gram LMs, een eenvoudige en historisch relevante klasse van taalmodelen. We laten zien dat transformer LMs die gebruikmaken van harde of sparse aandachtmechanismen elk n-gram LM exact kunnen representeren, wat ons een concrete ondergrens geeft van hun probabilistische representatievermogen. Dit biedt een eerste stap naar het begrijpen van de mechanismen die transformer LMs kunnen gebruiken om waarschijnlijkheidsverdelingen over strings te representeren.