Dagelijks geselecteerde AI onderzoekspapers met vertalingen
In dit artikel streven we ernaar de prestaties van SwiftBrush, een vooraanstaand één-staps tekst-naar-beeld diffusiemodel, te verbeteren om competitief te zijn met zijn meer-staps Stable Diffusion tegenhanger. Eerst onderzoeken we de kwaliteit-diversiteit afweging tussen SwiftBrush en SD Turbo: de eerste blinkt uit in beelddiversiteit, terwijl de laatste uitblinkt in beeldkwaliteit. Deze observatie motiveert onze voorgestelde aanpassingen in de trainingsmethodologie, waaronder betere gewichtsinitialisatie en efficiënte LoRA-training. Bovendien verbetert onze introductie van een nieuwe geklemde CLIP-loss de uitlijning tussen beeld en tekst en resulteert dit in een verbeterde beeldkwaliteit. Opmerkelijk genoeg bereiken we door het combineren van de gewichten van modellen die zijn getraind met efficiënte LoRA en volledige training een nieuw state-of-the-art één-staps diffusiemodel, met een FID van 8.14, waarmee we alle GAN-gebaseerde en meer-staps Stable Diffusion-modellen overtreffen. De evaluatiecode is beschikbaar op: https://github.com/vinairesearch/swiftbrushv2.
De afgelopen jaren hebben foundation models (FM's), zoals large language models (LLM's) en latent diffusion models (LDM's), een diepgaande impact gehad op diverse sectoren, waaronder muziek. Deze uitgebreide review onderzoekt state-of-the-art (SOTA) vooraf getrainde modellen en foundation models in muziek, variërend van representatie leren, generatief leren en multimodaal leren. We plaatsen eerst het belang van muziek in verschillende industrieën in context en volgen de evolutie van AI in muziek. Door de modaliteiten die door foundation models worden beoogd af te bakenen, ontdekken we dat veel van de muziekrepresentaties onderbelicht zijn in de ontwikkeling van FM's. Vervolgens wordt de nadruk gelegd op het gebrek aan veelzijdigheid van eerdere methoden voor diverse muziektoepassingen, samen met het potentieel van FM's in muziekbegrip, -generatie en medische toepassingen. Door de details van het model pre-training paradigma, architectonische keuzes, tokenisatie, finetuning methodologieën en beheersbaarheid uitgebreid te verkennen, benadrukken we de belangrijke onderwerpen die goed onderzocht hadden moeten worden, zoals instructie afstemming en in-context leren, schaalwetten en emergente vermogens, evenals lange-sequentie modellering etc. Een speciaal gedeelte biedt inzichten in muziekagentschappen, vergezeld van een grondige analyse van datasets en evaluaties die essentieel zijn voor pre-training en downstream taken. Ten slotte benadrukken we het vitale belang van ethische overwegingen en pleiten we ervoor dat vervolgonderzoek naar FM's voor muziek zich meer zou moeten richten op kwesties zoals interpreteerbaarheid, transparantie, menselijke verantwoordelijkheid en auteursrechtenkwesties. Het artikel biedt inzichten in toekomstige uitdagingen en trends op het gebied van FM's voor muziek, met als doel de trajecten van mens-AI-samenwerking in de muziekwereld vorm te geven.
Het oplossen van GitHub-issues is een cruciale taak in software engineering, die recentelijk veel aandacht heeft gekregen in zowel de industrie als de academische wereld. Binnen deze taak is SWE-bench ontwikkeld om de mogelijkheden van grote taalmodellen (LLMs) voor het oplossen van issues te evalueren, maar tot nu toe lag de focus alleen op Python. Het ondersteunen van meer programmeertalen is echter ook belangrijk, aangezien hier een sterke vraag naar is in de industrie. Als eerste stap naar meertalige ondersteuning hebben we een Java-versie van SWE-bench ontwikkeld, genaamd SWE-bench-java. We hebben de dataset openbaar gemaakt, samen met de bijbehorende Docker-gebaseerde evaluatieomgeving en een leaderboard, die de komende maanden continu worden onderhouden en bijgewerkt. Om de betrouwbaarheid van SWE-bench-java te verifiëren, implementeren we een klassieke methode, SWE-agent, en testen we verschillende krachtige LLMs hierop. Zoals bekend is het ontwikkelen van een hoogwaardige meertalige benchmark tijdrovend en arbeidsintensief, dus we verwelkomen bijdragen via pull requests of samenwerking om de iteratie en verfijning te versnellen, en zo de weg te effenen voor volledig geautomatiseerd programmeren.
De snelle vooruitgang van visuele generatieve modellen vereist efficiënte en betrouwbare evaluatiemethoden. Het Arena-platform, dat gebruikersstemmen verzamelt over modelvergelijkingen, kan modellen rangschikken op basis van menselijke voorkeuren. Traditionele Arena-methoden, hoewel gevestigd, vereisen echter een buitensporig aantal vergelijkingen om de rangschikking te laten convergeren en zijn kwetsbaar voor voorkeursruis in de stemmen, wat de noodzaak suggereert van betere benaderingen die zijn afgestemd op hedendaagse evaluatie-uitdagingen. In dit artikel introduceren we K-Sort Arena, een efficiënt en betrouwbaar platform gebaseerd op een belangrijk inzicht: afbeeldingen en video's hebben een hogere perceptuele intuïtiviteit dan tekst, waardoor snelle evaluatie van meerdere samples tegelijk mogelijk is. K-Sort Arena maakt daarom gebruik van K-wise vergelijkingen, waarbij K modellen deelnemen aan vrije competities, wat veel rijkere informatie oplevert dan paarsgewijze vergelijkingen. Om de robuustheid van het systeem te vergroten, maken we gebruik van probabilistische modellering en Bayesiaanse updatetechnieken. We stellen een op exploratie-exploitatie gebaseerde matchmakingstrategie voor om meer informatieve vergelijkingen te faciliteren. In onze experimenten vertoont K-Sort Arena een 16,3 keer snellere convergentie vergeleken met het veelgebruikte ELO-algoritme. Om de superioriteit verder te valideren en een uitgebreide ranglijst te verkrijgen, verzamelen we menselijke feedback via crowdsourced evaluaties van talrijke state-of-the-art tekst-naar-beeld en tekst-naar-video modellen. Dankzij de hoge efficiëntie kan K-Sort Arena continu nieuwe modellen integreren en de ranglijst bijwerken met minimale stemmen. Ons project heeft enkele maanden van interne tests ondergaan en is nu beschikbaar op https://huggingface.co/spaces/ksort/K-Sort-Arena.
De wijdverbreide adoptie van cloudgebaseerde, propriëtaire grote taalmodellen (LLM's) heeft aanzienlijke uitdagingen met zich meegebracht, waaronder operationele afhankelijkheden, privacyzorgen en de noodzaak van continue internetverbinding. In dit werk introduceren we een LLMOps-pijplijn, "LlamaDuo", voor de naadloze migratie van kennis en vaardigheden van servicegerichte LLM's naar kleinere, lokaal beheersbare modellen. Deze pijplijn is cruciaal om servicecontinuïteit te waarborgen in het geval van operationele storingen, strikte privacybeleidsregels of offline vereisten. Onze LlamaDuo omvat het finetunen van een klein taalmodel tegen de service-LLM met behulp van een synthetische dataset die door de laatste is gegenereerd. Als de prestaties van het gefinetunde model niet aan de verwachtingen voldoen, wordt het verder verbeterd door aanvullende finetuning met vergelijkbare data die door de service-LLM is gecreëerd. Dit iteratieve proces garandeert dat het kleinere model uiteindelijk de capaciteiten van de service-LLM kan evenaren of zelfs overtreffen in specifieke downstream taken, wat een praktische en schaalbare oplossing biedt voor het beheren van AI-implementaties in beperkte omgevingen. Uitgebreide experimenten met toonaangevende LLM's worden uitgevoerd om de effectiviteit, aanpasbaarheid en betaalbaarheid van LlamaDuo over verschillende downstream taken aan te tonen. Onze pijplijnimplementatie is beschikbaar op https://github.com/deep-diver/llamaduo.
Het vinden van de optimale leerrate voor het vooraf trainen van taalmodelen is een uitdagende taak. Dit komt niet alleen omdat er een complexe correlatie bestaat tussen leerrate, batchgrootte, aantal trainings tokens, modelgrootte en andere hyperparameters, maar ook omdat het buitengewoon kostbaar is om een hyperparameterzoektocht uit te voeren voor grote taalmodelen met miljarden of biljoenen parameters. Recente studies stellen voor om kleine proxy-modellen en een kleine corpus te gebruiken om hyperparameterzoektochten uit te voeren en de optimale parameters over te dragen naar grote modellen en een grote corpus. Hoewel de zero-shot overdraagbaarheid theoretisch en empirisch is bewezen voor hyperparameters gerelateerd aan modelgrootte, zoals diepte en breedte, is de zero-shot overdracht van een kleine corpus naar een grote corpus nog onderbelicht. In dit artikel bestuderen we de correlatie tussen optimale leerrate, batchgrootte en aantal trainings tokens voor de recent voorgestelde WSD-planner. Na duizenden kleine experimenten hebben we een machtswetrelatie tussen variabelen gevonden en de overdraagbaarheid ervan over modelgroottes aangetoond. Op basis van deze observatie stellen we een nieuwe leerrateplanner voor, de Power-planner, die onafhankelijk is van het aantal trainings tokens en de batchgrootte. Het experiment toont aan dat het combineren van de Power-planner met Maximum Update Parameterization (muP) consistent indrukwekkende prestaties kan bereiken met één set hyperparameters, ongeacht het aantal trainings tokens, de batchgrootte, de modelgrootte en zelfs de modelarchitectuur. Onze 3B dense en MoE-modellen, getraind met de Power-planner, bereiken vergelijkbare prestaties als state-of-the-art kleine taalmodelen. We hebben deze vooraf getrainde modellen open-source gemaakt op https://ibm.biz/BdKhLa.
Videogeneratiemodellen hebben aanzienlijk potentieel in gebieden zoals filmmaking. Huidige videodiffusiemodellen vereisen echter hoge computationele kosten en leveren suboptimale resultaten op vanwege de hoge complexiteit van de videogeneratietaak. In dit artikel stellen we ConFiner voor, een efficiënt kwalitatief hoogstaand videogeneratieraamwerk dat videogeneratie ontkoppelt in eenvoudigere subtaken: structuurcontrole en ruimtelijk-temporele verfijning. Het kan hoogwaardige video's genereren met een keten van kant-en-klare diffusiemodelexperts, waarbij elke expert verantwoordelijk is voor een ontkoppelde subtaak. Tijdens de verfijning introduceren we gecoördineerde denoising, waardoor de mogelijkheden van meerdere diffusie-experts kunnen worden samengevoegd in een enkele sampling. Bovendien ontwerpen we het ConFiner-Long raamwerk, dat lange coherente video's kan genereren met drie beperkingsstrategieën op ConFiner. Experimentele resultaten tonen aan dat ConFiner met slechts 10\% van de inferentiekosten representatieve modellen zoals Lavie en Modelscope overtreft op alle objectieve en subjectieve metrieken. En ConFiner-Long kan hoogwaardige en coherente video's genereren met tot wel 600 frames.
In multiplayer first-person shooter games zoals Counter-Strike: Global Offensive (CS:GO) is gecoördineerde beweging een cruciaal onderdeel van hoogwaardig strategisch spel. De complexiteit van teamcoördinatie en de verscheidenheid aan omstandigheden in populaire gamekaarten maken het echter onpraktisch om handmatig beweegingsbeleid voor elk scenario te ontwerpen. We tonen aan dat het mogelijk is om een data-gedreven benadering te gebruiken om mensachtige beweegingscontrollers voor CS:GO te creëren. We hebben een teambewegingsdataset samengesteld bestaande uit 123 uur aan professionele gameplay-traceringen, en gebruiken deze dataset om een transformer-gebaseerd beweegingsmodel te trainen dat mensachtige teambewegingen genereert voor alle spelers in een "Retakes"-ronde van het spel. Belangrijk is dat het beweegingsvoorspellingsmodel efficiënt is. Het uitvoeren van inferentie voor alle spelers kost minder dan 0,5 ms per gamestap (geamortiseerde kosten) op een enkele CPU-kern, wat het geschikt maakt voor gebruik in commerciële games van vandaag. Menselijke beoordelaars stellen vast dat ons model meer op mensen lijkt dan zowel commercieel beschikbare bots als procedurele beweegingscontrollers die door experts zijn gescript (16% tot 59% hoger volgens de TrueSkill-beoordeling van "mensachtig"). Met experimenten waarbij bots tegen bots in het spel zelf spelen, demonstreren we dat ons model eenvoudige vormen van teamwork uitvoert, minder veelvoorkomende beweegingsfouten maakt, en beweegingsdistributies, spelerslevensduur en locaties van kills oplevert die vergelijkbaar zijn met die waargenomen in professionele CS:GO-wedstrijden.
Het toenemende gebruik van Large Language Models (LLM's) heeft geleid tot een sterk stijgende vraag naar planetaire schaalsystemen voor het serveren van modellen, waarbij tienduizenden GPU's continu honderden miljoenen gebruikers bedienen. Als gevolg hiervan is doorvoer (onder redelijke latentiebeperkingen) een belangrijke maatstaf geworden die de prestaties van serversystemen bepaalt. Om de doorvoer te verhogen, zijn verschillende methoden van inter-apparaatparallelisme (bijvoorbeeld data-, tensor- en pipelineparallelisme) onderzocht. Bestaande methoden houden echter geen rekening met het overlappen van het gebruik van verschillende bronnen binnen een enkel apparaat, wat leidt tot onderbenutting en suboptimale prestaties. Wij stellen NanoFlow voor, een nieuw serverframework dat intra-apparaatparallelisme benut door het gebruik van bronnen zoals rekenkracht, geheugen en netwerk binnen een enkel apparaat te overlappen via operatie-co-scheduling. Om intra-apparaatparallelisme te benutten, introduceert NanoFlow twee belangrijke innovaties: Ten eerste splitst NanoFlow verzoeken in nano-batches op het niveau van operaties, waardoor de afhankelijkheid van sequentiële operaties bij LLM-inferentie wordt doorbroken en overlapping mogelijk wordt gemaakt. Vervolgens gebruikt NanoFlow een operatie-level pipeline met planning van uitvoeringseenheden, waarbij de functionele eenheden van het apparaat worden gepartitioneerd en verschillende operaties gelijktijdig in elke eenheid worden uitgevoerd. NanoFlow automatiseert de pipeline-instelling met behulp van een parameterzoekalgoritme, waardoor het eenvoudig wordt om NanoFlow naar verschillende modellen te porten. We implementeren NanoFlow op NVIDIA GPU's en evalueren de end-to-end serverdoorvoer op verschillende populaire modellen zoals LLaMA-2-70B, Mixtral 8x7B, LLaMA-3-8B, enz. Met praktische workloads biedt NanoFlow een doorvoerverbetering van 1,91x vergeleken met state-of-the-art serversystemen, waarbij 59% tot 72% van de optimale doorvoer wordt bereikt over de geporteerde modellen.
Multimodale Large Language Models (MM-LLMs) hebben het afgelopen jaar aanzienlijke vooruitgang geboekt en indrukwekkende prestaties getoond bij diverse taken. Om AI echter echt te democratiseren, moeten modellen sterke capaciteiten vertonen en efficiënt kunnen draaien op kleine rekenkracht die voor de meeste mensen toegankelijk is. Als onderdeel van deze zoektocht introduceren we LLaVaOLMoBitnet1B - het eerste ternaire multimodale LLM dat afbeelding(en)+tekst als invoer kan accepteren om samenhangende tekstuele antwoorden te produceren. Het model is volledig open-source gemaakt, samen met trainingsscripts, om verder onderzoek in dit domein aan te moedigen. Dit bijbehorende technische rapport belicht het trainingsproces, evaluatiedetails, uitdagingen die gepaard gaan met ternaire modellen en toekomstige mogelijkheden. Link naar het model: https://huggingface.co/IntelLabs/LlavaOLMoBitnet1B
Grote taalmodellen (LLMs) hebben een revolutie teweeggebracht in taalverwerking, waarbij ze uitstekende resultaten leveren in diverse toepassingen. Het implementeren van LLMs op edge-apparaten brengt echter verschillende uitdagingen met zich mee op het gebied van geheugen, energie en rekenkosten, wat hun brede inzet in apparaten zoals mobiele telefoons beperkt. Een veelbelovende oplossing is het verminderen van het aantal bits dat wordt gebruikt om gewichten en activeringen weer te geven. Hoewel bestaande werken gedeeltelijk succes hebben geboekt bij het kwantiseren van LLMs naar lagere bitbreedtes, bijvoorbeeld 4-bit gewichten, leidt het kwantiseren van activeringen voorbij 16 bits vaak tot grote rekenkundige overhead door slechte ondersteuning voor kwantisatie op het apparaat, of tot een aanzienlijke nauwkeurigheidsdaling. Toch zijn 8-bit activeringen zeer aantrekkelijk voor implementatie op het apparaat, omdat ze LLMs in staat zouden stellen om volledig gebruik te maken van mobielvriendelijke hardware, zoals Neural Processing Units (NPUs). In dit werk doen we een eerste poging om de implementatie van LLMs op het apparaat te vergemakkelijken door gebruik te maken van integer-only kwantisatie. We onderzoeken eerst de beperkingen van bestaande kwantiseringsmethoden voor implementatie op het apparaat, met speciale aandacht voor activeringskwantisatie. Vervolgens pakken we deze beperkingen aan door een eenvoudige post-training kwantiseringsmethode te introduceren, genaamd MobileQuant, die eerdere werken over gewichtsequivalenttransformatie uitbreidt door gezamenlijk de gewichtstransformatie en activeringsbereikparameters te optimaliseren op een end-to-end manier. MobileQuant toont superieure capaciteiten ten opzichte van bestaande methoden door 1) bijna verliesvrije kwantisatie te bereiken op een breed scala aan LLM-benchmarks, 2) latentie en energieverbruik met 20\%-50\% te verminderen in vergelijking met huidige kwantiseringsstrategieën op het apparaat, 3) een beperkt rekenbudget te vereisen, 4) compatibel te zijn met mobielvriendelijke rekenunits, zoals NPU.
Overgangsvideo's spelen een cruciale rol in mediaproductie, waarbij ze de flow en samenhang van visuele verhalen versterken. Traditionele methoden zoals morphing missen vaak artistieke aantrekkingskracht en vereisen gespecialiseerde vaardigheden, wat hun effectiviteit beperkt. Recente vooruitgang in op diffusiemodellen gebaseerde videogeneratie biedt nieuwe mogelijkheden voor het creëren van overgangen, maar kampt met uitdagingen zoals slechte modellering van inter-frame relaties en abrupte inhoudsveranderingen. Wij stellen een nieuwe trainingsvrije benadering voor, genaamd Transition Video Generation (TVG), die gebruikmaakt van video-level diffusiemodellen om deze beperkingen aan te pakken zonder aanvullende training. Onze methode maakt gebruik van Gaussian Process Regression (GPR) om latente representaties te modelleren, waardoor vloeiende en dynamische overgangen tussen frames worden gegarandeerd. Daarnaast introduceren we interpolatie-gebaseerde conditionele controles en een Frequency-aware Bidirectional Fusion (FBiF) architectuur om temporele controle en overgangsbetrouwbaarheid te verbeteren. Evaluaties van benchmarkdatasets en aangepaste beeldparen tonen de effectiviteit van onze aanpak aan in het genereren van hoogwaardige, vloeiende overgangsvideo's. De code is beschikbaar op https://sobeymil.github.io/tvg.com.
Grote taalmodellen (LLMs) zoals ChatGPT en Gemini hebben aanzienlijke vooruitgang geboekt in natuurlijke taalverwerking, wat diverse toepassingen mogelijk maakt, zoals chatbots en geautomatiseerde inhoudsgeneratie. Deze modellen kunnen echter worden misbruikt door kwaadwillenden die giftige prompts creëren om schadelijke of onethische reacties uit te lokken. Deze individuen gebruiken vaak jailbreaking-technieken om veiligheidsmechanismen te omzeilen, wat de noodzaak onderstreept van robuuste methoden voor het detecteren van giftige prompts. Bestaande detectietechnieken, zowel blackbox als whitebox, kampen met uitdagingen op het gebied van de diversiteit van giftige prompts, schaalbaarheid en rekenkundige efficiëntie. Als reactie hierop stellen wij ToxicDetector voor, een lichtgewicht greybox-methode die is ontworpen om giftige prompts in LLMs efficiënt te detecteren. ToxicDetector maakt gebruik van LLMs om giftige conceptprompts te creëren, gebruikt embeddingvectoren om kenmerkvectoren te vormen en zet een Multi-Layer Perceptron (MLP)-classificator in voor de classificatie van prompts. Onze evaluatie op verschillende versies van de LLama-modellen, Gemma-2 en meerdere datasets toont aan dat ToxicDetector een hoge nauwkeurigheid van 96,39\% en een laag fout-positief percentage van 2,00\% bereikt, wat beter is dan state-of-the-art methoden. Bovendien maakt de verwerkingstijd van 0,0780 seconden per prompt ToxicDetector zeer geschikt voor realtime toepassingen. ToxicDetector combineert hoge nauwkeurigheid, efficiëntie en schaalbaarheid, waardoor het een praktische methode is voor het detecteren van giftige prompts in LLMs.
Bestaande werken op het gebied van menselijke reconstructie vanuit één afbeelding kampen met een zwakke generaliseerbaarheid door onvoldoende trainingsdata of 3D-inconsistenties als gevolg van een gebrek aan uitgebreide kennis vanuit meerdere perspectieven. In dit artikel introduceren we MagicMan, een mens-specifiek multi-view diffusiemodel dat is ontworpen om hoogwaardige nieuwe perspectiefafbeeldingen te genereren vanuit één referentieafbeelding. Als kern gebruiken we een vooraf getraind 2D-diffusiemodel als de generatieve prior voor generaliseerbaarheid, met het parametrische SMPL-X-model als de 3D-lichaamsprior om 3D-bewustzijn te bevorderen. Om de kritieke uitdaging aan te pakken van het behouden van consistentie terwijl dichte multi-view-generatie wordt bereikt voor verbeterde 3D-menselijke reconstructie, introduceren we eerst hybride multi-view aandacht om zowel efficiënte als grondige informatie-uitwisseling tussen verschillende perspectieven te vergemakkelijken. Daarnaast presenteren we een geometrie-bewuste dubbele tak om gelijktijdige generatie in zowel het RGB- als het normal-domein uit te voeren, wat de consistentie verder verbetert via geometrie-aanwijzingen. Last but not least, om slecht gevormde problemen aan te pakken die voortkomen uit onnauwkeurige SMPL-X-schattingen die in conflict zijn met de referentieafbeelding, stellen we een nieuwe iteratieve verfijningsstrategie voor, die de nauwkeurigheid van SMPL-X progressief optimaliseert terwijl de kwaliteit en consistentie van de gegenereerde multi-views worden verbeterd. Uitgebreide experimentele resultaten tonen aan dat onze methode aanzienlijk beter presteert dan bestaande benaderingen in zowel nieuwe perspectiefsynthese als daaropvolgende 3D-menselijke reconstructietaken.