Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Hoewel recente grootschalige tekst-naar-spraak (TTS) modellen aanzienlijke vooruitgang hebben geboekt, schieten ze nog steeds tekort op het gebied van spraakkwaliteit, gelijkenis en prosodie. Gezien spraak een complex geheel is van verschillende attributen (bijv. inhoud, prosodie, timbre en akoestische details) die aanzienlijke uitdagingen vormen voor generatie, is een natuurlijk idee om spraak te ontbinden in individuele deelruimtes die verschillende attributen vertegenwoordigen en deze afzonderlijk te genereren. Gemotiveerd door dit idee, stellen we NaturalSpeech 3 voor, een TTS-systeem met nieuwe gefactoriseerde diffusiemodellen om natuurlijke spraak op een zero-shot manier te genereren. Specifiek: 1) ontwerpen we een neurale codec met gefactoriseerde vectorkwantisatie (FVQ) om het spraakgolfvorm te ontwarren in deelruimtes van inhoud, prosodie, timbre en akoestische details; 2) stellen we een gefactoriseerd diffusiemodel voor om attributen in elke deelruimte te genereren volgens het bijbehorende prompt. Met dit ontwerp kan NaturalSpeech 3 de complexe spraak effectief en efficiënt modelleren met ontwarrende deelruimtes op een verdeel-en-heers manier. Experimenten tonen aan dat NaturalSpeech 3 de state-of-the-art TTS-systemen overtreft op het gebied van kwaliteit, gelijkenis, prosodie en verstaanbaarheid. Bovendien behalen we betere prestaties door op te schalen naar 1 miljard parameters en 200.000 uur trainingsdata.
Wij stellen een nieuw raamwerk voor voor het filteren van beeld-tekstgegevens door gebruik te maken van fijn afgestelde Multimodale Taalmodellen (MLMs). Onze aanpak overtreft dominante filtermethoden (bijv. CLIPScore) door de recente vooruitgang in MLMs te integreren. We ontwerpen vier verschillende maar complementaire metrieken om de kwaliteit van beeld-tekstgegevens holistisch te meten. Er wordt een nieuwe pijplijn opgezet om hoogwaardige instructiegegevens te construeren voor het fijn afstellen van MLMs als datafilters. In vergelijking met CLIPScore produceren onze MLM-filters nauwkeurigere en uitgebreidere scores die direct de kwaliteit van gefilterde gegevens verbeteren en de prestaties van vooraf getrainde modellen verhogen. We behalen aanzienlijke verbeteringen ten opzichte van CLIPScore op populaire basismodellen (d.w.z. CLIP en BLIP2) en diverse downstream taken. Onze MLM-filter kan generaliseren naar verschillende modellen en taken, en kan worden gebruikt als een directe vervanging voor CLIPScore. Een aanvullende ablatiestudie wordt verstrekt om onze ontwerpkeuzes voor de MLM-filter te verifiëren.
Schaalwetten spelen een cruciale rol in de duurzame verbetering van modelkwaliteit. Helaas vertonen aanbevelingsmodellen tot op heden niet dergelijke wetten, vergelijkbaar met die waargenomen in het domein van grote taalmodellen, vanwege de inefficiënties van hun opschalingsmechanismen. Deze beperking vormt aanzienlijke uitdagingen bij het aanpassen van deze modellen aan steeds complexere real-world datasets. In dit artikel stellen we een effectieve netwerkarchitectuur voor, gebaseerd op gestapelde factorisatiemachines, en een synergetische opschalingsstrategie, gezamenlijk Wukong genoemd, om een schaalwet te vestigen in het domein van aanbevelingen. Het unieke ontwerp van Wukong maakt het mogelijk om diverse interacties van elke orde vast te leggen, simpelweg door hogere en bredere lagen. We hebben uitgebreide evaluaties uitgevoerd op zes openbare datasets, en onze resultaten tonen aan dat Wukong consistent beter presteert dan state-of-the-art modellen wat betreft kwaliteit. Verder hebben we de schaalbaarheid van Wukong beoordeeld op een interne, grootschalige dataset. De resultaten laten zien dat Wukong zijn superioriteit in kwaliteit behoudt ten opzichte van state-of-the-art modellen, terwijl het de schaalwet handhaaft over twee ordes van grootte in modelcomplexiteit, uitbreidend tot voorbij 100 Gflop of equivalent tot de schaal van totale trainingsberekening van GPT-3/LLaMa-2, waar eerdere methoden tekortschieten.
Grote taalmodellen (LLMs) hebben opmerkelijke vaardigheden getoond in het oplossen van problemen. Hun bekwaamheid in het oplossen van wiskundige problemen blijft echter ontoereikend. Wij stellen MathScale voor, een eenvoudige en schaalbare methode om hoogwaardige wiskundige redeneergegevens te creëren met behulp van geavanceerde LLMs (bijv. {\tt GPT-3.5}). Geïnspireerd door het cognitieve mechanisme in menselijk wiskundig leren, extraheert het eerst onderwerpen en kennispunten uit startvragen voor wiskunde en bouwt vervolgens een conceptgrafiek, die wordt gebruikt om nieuwe wiskundevragen te genereren. MathScale toont effectieve schaalbaarheid langs de grootte-as van de wiskundige dataset die we genereren. Als resultaat creëren we een wiskundig redeneerdataset (MathScaleQA) die twee miljoen wiskundige vraag-antwoordparen bevat. Om de wiskundige redeneervaardigheden van LLMs uitgebreid te evalueren, construeren we {\sc MwpBench}, een benchmark van Wiskundige Woordproblemen, een verzameling van tien datasets (inclusief GSM8K en MATH) die wiskundige problemen op K-12, universitair en wedstrijdniveau omvatten. We passen MathScaleQA toe om open-source LLMs (bijv. LLaMA-2 en Mistral) te fine-tunen, wat resulteert in aanzienlijk verbeterde vaardigheden in wiskundig redeneren. Geëvalueerd op {\sc MwpBench}, behaalt MathScale-7B state-of-the-art prestaties op alle datasets, waarbij het zijn beste equivalent grote peers overtreft met 42,9\% in micro gemiddelde nauwkeurigheid en 43,7\% in macro gemiddelde nauwkeurigheid, respectievelijk.
De ontwikkeling van multimodale interactieve systemen wordt belemmerd door het gebrek aan rijke, multimodale (tekst, afbeeldingen) conversatiegegevens, die in grote hoeveelheden nodig zijn voor LLM's (Large Language Models). Eerdere benaderingen verrijken tekstuele dialogen met opgehaalde afbeeldingen, wat privacy-, diversiteits- en kwaliteitsbeperkingen met zich meebrengt. In dit werk introduceren we Multimodal Augmented Generative Images Dialogues (MAGID), een raamwerk om tekstuele dialogen te verrijken met diverse en hoogwaardige afbeeldingen. Vervolgens wordt een diffusiemodel toegepast om bijbehorende afbeeldingen te maken, waarbij wordt gezorgd voor afstemming met de geïdentificeerde tekst. Ten slotte integreert MAGID een innovatieve feedbacklus tussen een module voor het genereren van afbeeldingsbeschrijvingen (tekstuele LLM) en modules voor afbeeldingskwaliteit (gericht op esthetiek, afbeelding-tekst matching en veiligheid), die samenwerken om hoogwaardige en multimodale dialogen te genereren. We vergelijken MAGID met andere state-of-the-art (SOTA) baselines op drie dialoogdatasets, waarbij gebruik wordt gemaakt van geautomatiseerde en menselijke evaluatie. Onze resultaten laten zien dat MAGID vergelijkbaar is met of beter presteert dan de baselines, met significante verbeteringen in de menselijke evaluatie, vooral tegen retrieval baselines waarbij de afbeeldingsdatabase klein is.
Grote taalmmodellen (LLMs) hebben zich bewezen als aanzienlijk superieur ten opzichte van conventionele methoden in diverse taken. Hun dure berekeningen en hoge geheugeneisen zijn echter belemmerend voor implementatie. Modelkwantisatie is een effectieve methode om deze overhead te verminderen. Het probleem is dat in de meeste eerdere werken het gekwantiseerde model werd gekalibreerd met behulp van enkele voorbeelden uit de trainingsdata, wat de generalisatie van de gekwantiseerde LLMs naar onbekende gevallen en taken zou kunnen beïnvloeden. Daarom onderzoeken we in dit werk een belangrijke vraag: Kunnen we een data-onafhankelijke kwantisatiemethode voor LLMs ontwerpen om de generalisatieprestaties te garanderen? In dit werk stellen we EasyQuant voor, een trainingsvrij en data-onafhankelijk gewichtsgebaseerd kwantisatiealgoritme voor LLMs. Onze observatie geeft aan dat twee factoren: uitschieters in het gewicht en kwantisatiebereiken, essentieel zijn voor het verminderen van de kwantisatiefout. Daarom laten we in EasyQuant de uitschieters (minder dan 1%) ongewijzigd en optimaliseren we het kwantisatiebereik om de reconstructiefout te verminderen. Met deze methoden vinden we verrassend genoeg dat EasyQuant vergelijkbare prestaties bereikt als het originele model. Omdat EasyQuant niet afhankelijk is van enige trainingsdata, is de generalisatieprestatie van gekwantiseerde LLMs veilig gegarandeerd. Bovendien kan EasyQuant parallel worden geïmplementeerd, zodat het gekwantiseerde model in enkele minuten kan worden verkregen, zelfs voor LLMs met meer dan 100B. Voor zover wij weten, zijn wij het eerste werk dat bijna verliesvrije kwantisatieprestaties voor LLMs bereikt onder een data-onafhankelijke instelling en ons algoritme loopt meer dan 10 keer sneller dan de data-afhankelijke methoden.
Ondanks opmerkelijke vooruitgang zijn bestaande multimodale grote taalmodellen (MLLMs) nog steeds inferieur in gedetailleerde visuele herkenning. In tegenstelling tot eerdere werken bestuderen we dit probleem vanuit het perspectief van beeldresolutie en tonen we aan dat een combinatie van visuele kenmerken met lage en hoge resolutie dit tekort effectief kan verminderen. Op basis van deze observatie stellen we een nieuwe en efficiënte methode voor MLLMs voor, genaamd Mixture-of-Resolution Adaptation (MRA). In het bijzonder gebruikt MRA twee visuele paden voor afbeeldingen met verschillende resoluties, waarbij visuele informatie met hoge resolutie wordt ingebed in het pad met lage resolutie via de nieuwe mixture-of-resolution adapters (MR-Adapters). Dit ontwerp vermindert ook aanzienlijk de invoerreekslengte van MLLMs. Om MRA te valideren, passen we het toe op een recent MLLM genaamd LLaVA, en noemen we het nieuwe model LLaVA-HR. We voeren uitgebreide experimenten uit op 11 visie-taal (VL) taken, die aantonen dat LLaVA-HR bestaande MLLMs overtreft op 8 VL taken, bijvoorbeeld +9,4% op TextVQA. Belangrijker is dat zowel de training als de inferentie van LLaVA-HR efficiënt blijven met MRA, bijvoorbeeld 20 trainingsuren en 3 keer snellere inferentie dan LLaVA-1.5. Broncodes zijn vrijgegeven op: https://github.com/luogen1996/LLaVA-HR.
Van contentmoderatie tot natuurbescherming groeit het aantal toepassingen dat modellen vereist om genuanceerde of subjectieve visuele concepten te herkennen. Traditioneel vereist het ontwikkelen van classificatoren voor dergelijke concepten aanzienlijke handmatige inspanning, gemeten in uren, dagen of zelfs maanden, om de benodigde gegevens voor training te identificeren en te annoteren. Zelfs met recent voorgestelde Agile Modeling-technieken, die een snelle opstart van beeldclassificatoren mogelijk maken, moeten gebruikers nog steeds 30 minuten of meer besteden aan monotoon, repetitief labelen van gegevens om slechts één classificator te trainen. Gebaseerd op Fiske's Cognitive Miser-theorie stellen we een nieuw raamwerk voor dat de handmatige inspanning vermindert door menselijk labelen te vervangen door natuurlijke taalinteracties, waardoor de totale inspanning die nodig is om een concept te definiëren met een orde van grootte wordt verminderd: van het labelen van 2.000 afbeeldingen naar slechts 100 plus enkele natuurlijke taalinteracties. Ons raamwerk maakt gebruik van recente vooruitgang in foundation modellen, zowel grote taalmodellen als visie-taalmodellen, om de conceptruimte af te bakenen door middel van conversatie en door automatisch trainingsgegevens te labelen. Het belangrijkste is dat ons raamwerk de noodzaak voor crowd-sourced annotaties elimineert. Bovendien produceert ons raamwerk uiteindelijk lichtgewicht classificatiemodellen die in kostenbewuste scenario's kunnen worden ingezet. Over 15 subjectieve concepten en over 2 openbare beeldclassificatiedatasets presteren onze getrainde modellen beter dan traditionele Agile Modeling en state-of-the-art zero-shot classificatiemodellen zoals ALIGN, CLIP, CuPL, en grote visuele vraag-antwoordmodellen zoals PaLI-X.
Natuurlijke taal en afbeeldingen worden vaak gebruikt als doelrepresentaties in doelgericht imitatie leren (IL). Echter, natuurlijke taal kan ambigu zijn en afbeeldingen kunnen overgespecificeerd zijn. In dit werk stellen we handgetekende schetsen voor als een modaliteit voor doelspecificatie in visueel imitatie leren. Schetsen zijn gemakkelijk voor gebruikers om ter plekke te leveren, net als taal, maar vergelijkbaar met afbeeldingen kunnen ze ook helpen om een downstream beleid ruimtelijk bewust te maken en zelfs verder te gaan dan afbeeldingen om taakrelevante objecten te onderscheiden van taakirrelevante objecten. We presenteren RT-Sketch, een doelgericht beleid voor manipulatie dat een handgetekende schets van de gewenste scène als invoer neemt en acties uitvoert. We trainen RT-Sketch op een dataset van gepaarde trajecten en corresponderende synthetisch gegenereerde doelschetsen. We evalueren deze aanpak op zes manipulatievaardigheden die betrekking hebben op het herschikken van objecten op een tafelblad op een gearticuleerd aanrecht. Experimenteel vinden we dat RT-Sketch in staat is om op een vergelijkbaar niveau te presteren als agents die op afbeeldingen of taal zijn gebaseerd in eenvoudige situaties, terwijl het grotere robuustheid bereikt wanneer taaldoelen ambigu zijn of visuele afleiders aanwezig zijn. Daarnaast tonen we aan dat RT-Sketch de capaciteit heeft om schetsen met verschillende niveaus van specificiteit te interpreteren en erop te reageren, variërend van minimale lijntekeningen tot gedetailleerde, gekleurde tekeningen. Voor aanvullend materiaal en video's verwijzen we naar onze website: http://rt-sketch.github.io.
De recente ontwikkelingen in neurale velden hebben fenomenale mogelijkheden gebracht op het gebied van vormgeneratie, maar ze missen cruciale eigenschappen, zoals incrementele controle - een fundamentele vereiste voor artistiek werk. Driehoekige meshes daarentegen zijn de representatie van keuze voor de meeste geometrie-gerelateerde taken, vanwege hun efficiëntie en intuïtieve controle, maar lenen zich niet goed voor neurale optimalisatie. Om downstream taken te ondersteunen, stelt eerdere kunst doorgaans een tweestapsbenadering voor, waarbij eerst een vorm wordt gegenereerd met behulp van neurale velden, en vervolgens een mesh wordt geëxtraheerd voor verdere verwerking. In dit artikel introduceren we in plaats daarvan een hybride aanpak die zowel een mesh als een Signed Distance Field (SDF)-representatie consistent behoudt. Met behulp van deze representatie introduceren we MagicClay - een kunstenaarsvriendelijk gereedschap voor het bewerken van delen van een mesh op basis van tekstuele prompts, terwijl andere delen onaangetast blijven. Ons framework zorgt zorgvuldig en efficiënt voor een balans tussen consistentie van de representaties en regularisaties in elke stap van de vormoptimalisatie; Door te vertrouwen op de mesh-representatie, laten we zien hoe de SDF op hogere resoluties en sneller kan worden weergegeven. Daarnaast maken we gebruik van recent werk in differentieerbare mesh-reconstructie om adaptief driehoeken in de mesh toe te wijzen waar nodig, zoals aangegeven door de SDF. Met een geïmplementeerd prototype demonstreren we superieure gegenereerde geometrie vergeleken met de state-of-the-art, en nieuwe consistente controle, waardoor sequentiële prompt-gebaseerde bewerkingen aan dezelfde mesh voor het eerst mogelijk worden.