Dagelijks geselecteerde AI onderzoekspapers met vertalingen
De drijvende factoren achter de ontwikkeling van grote taalmodelen (LLMs) met indrukwekkende leerprestaties zijn hun enorme modelgroottes en uitgebreide trainingsdatasets. Samen met de vooruitgang in natuurlijke taalverwerking zijn LLMs vaak toegankelijk gemaakt voor het publiek om diepgaand onderzoek en toepassingen te bevorderen. Wanneer het echter gaat om trainingsdatasets voor deze LLMs, met name de recente state-of-the-art modellen, worden deze vaak niet volledig vrijgegeven. Het creëren van trainingsdata voor hoogpresterende LLMs vereist uitgebreide reiniging en deduplicatie om het benodigde kwaliteitsniveau te waarborgen. Het gebrek aan transparantie rond trainingsdata heeft daardoor onderzoek naar het toeschrijven en aanpakken van hallucinatie- en biasproblemen in LLMs belemmerd, wat replicatiepogingen en verdere vooruitgang in de gemeenschap in de weg staat. Deze uitdagingen worden nog duidelijker in meertalige leeromgevingen, waar de beschikbare meertalige tekstdatasets vaak onvoldoende zijn verzameld en gereinigd. Hierdoor ontbreekt het aan open-source en direct bruikbare datasets om LLMs effectief in meerdere talen te trainen. Om dit probleem te overwinnen, presenteren we CulturaX, een omvangrijke meertalige dataset met 6,3 biljoen tokens in 167 talen, speciaal ontwikkeld voor LLM-ontwikkeling. Onze dataset ondergaat een zorgvuldige reiniging en deduplicatie via een rigoureus pijplijnproces met meerdere fasen om de beste kwaliteit voor modeltraining te bereiken, waaronder taalidentificatie, URL-gebaseerde filtering, metriek-gebaseerde reiniging, documentverfijning en datadeduplicatie. CulturaX wordt volledig vrijgegeven aan het publiek op HuggingFace om onderzoek en vooruitgang in meertalige LLMs te faciliteren: https://huggingface.co/datasets/uonlp/CulturaX.
We onderzoeken hoe voortgezette pre-training op domeinspecifieke corpora grote taalmodellen beïnvloedt, en ontdekken dat training op de ruwe corpora het model domeinkennis bijbrengt, maar zijn promptvaardigheid voor vraagbeantwoording aanzienlijk schaadt. Geïnspireerd door menselijk leren via begrijpend lezen—oefening na het lezen verbetert het vermogen om vragen te beantwoorden op basis van de opgedane kennis—stellen we een eenvoudige methode voor om ruwe corpora om te zetten in teksten voor begrijpend lezen. Elke ruwe tekst wordt verrijkt met een reeks taken die verband houden met de inhoud ervan. Onze methode, die zeer schaalbaar is en toepasbaar op alle pre-training corpora, verbetert consistent de prestaties bij verschillende taken in drie verschillende domeinen: biomedische wetenschappen, financiën en recht. Opmerkelijk is dat ons 7B-taalmodel competitieve prestaties behaalt met domeinspecifieke modellen van veel grotere omvang, zoals BloombergGPT-50B. Bovendien tonen we aan dat domeinspecifieke teksten voor begrijpend lezen de prestaties van het model zelfs op algemene benchmarks kunnen verbeteren, wat het potentieel aantoont om een algemeen model te ontwikkelen voor nog meer domeinen. Ons model, code en gegevens zullen beschikbaar zijn op https://github.com/microsoft/LMOps.
Grote Taalmodellen (LLMs) hebben problemen met het beantwoorden van vragen over documenten (QA) in situaties waarin het document niet past in de beperkte contextlengte van een LLM. Om dit probleem te overwinnen, richten de meeste bestaande werken zich op het ophalen van de relevante context uit het document, waarbij deze als platte tekst wordt weergegeven. Echter, documenten zoals PDF's, webpagina's en presentaties zijn van nature gestructureerd met verschillende pagina's, tabellen, secties, enzovoort. Het weergeven van dergelijke gestructureerde documenten als platte tekst is niet in overeenstemming met het mentale model van de gebruiker van deze documenten met een rijke structuur. Wanneer een systeem de context uit het document moet opvragen, komt deze incongruentie naar voren, en schijnbaar triviale vragen kunnen het QA-systeem in de problemen brengen. Om deze fundamentele kloof in het omgaan met gestructureerde documenten te overbruggen, stellen we een aanpak genaamd PDFTriage voor, waarmee modellen de context kunnen ophalen op basis van structuur of inhoud. Onze experimenten tonen de effectiviteit aan van de voorgestelde PDFTriage-versterkte modellen voor verschillende klassen van vragen waar bestaande retrieval-versterkte LLMs falen. Om verder onderzoek naar dit fundamentele probleem te faciliteren, geven we onze benchmarkdataset vrij, bestaande uit 900+ door mensen gegenereerde vragen over 80 gestructureerde documenten uit 10 verschillende categorieën van vraagtypen voor document QA.
Dit artikel presenteert een uitgebreid overzicht van de taxonomie en evolutie van multimodale foundation-modellen die visuele en visueel-taalkundige capaciteiten demonstreren, met een focus op de overgang van gespecialiseerde modellen naar algemene assistenten. Het onderzoekslandschap omvat vijf kernonderwerpen, ingedeeld in twee categorieën. (i) We beginnen met een overzicht van goed gevestigde onderzoeksgebieden: multimodale foundation-modellen die vooraf zijn getraind voor specifieke doeleinden, inclusief twee onderwerpen -- methoden voor het leren van visuele backbones voor visueel begrip en tekst-naar-beeldgeneratie. (ii) Vervolgens presenteren we recente ontwikkelingen in verkennende, open onderzoeksgebieden: multimodale foundation-modellen die de rol van algemene assistenten beogen te vervullen, inclusief drie onderwerpen -- geünificeerde visuele modellen geïnspireerd door grote taalmmodellen (LLMs), end-to-end training van multimodale LLMs, en het koppelen van multimodale tools met LLMs. Het beoogde publiek van het artikel bestaat uit onderzoekers, promovendi en professionals in de computer vision en visueel-taalkundige multimodale gemeenschappen die geïnteresseerd zijn in de basisprincipes en recente ontwikkelingen in multimodale foundation-modellen.
We tonen aan dat Contrastive Decoding -- een eenvoudige, computationeel lichte en trainingsvrije tekstgeneratiemethode voorgesteld door Li et al. 2022 -- grote out-of-the-box verbeteringen bereikt ten opzichte van greedy decoding bij een verscheidenheid aan redeneertaken. Oorspronkelijk getoond om de waargenomen kwaliteit van langlopende tekstgeneratie te verbeteren, zoekt Contrastive Decoding naar strings die een gewogen verschil in waarschijnlijkheid maximaliseren tussen sterke en zwakke modellen. We laten zien dat Contrastive Decoding ervoor zorgt dat LLaMA-65B LLaMA 2, GPT-3.5 en PaLM 2-L overtreft op de HellaSwag commonsense redeneerbenchmark, en dat het LLaMA 2, GPT-3.5 en PaLM-540B overtreft op de GSM8K wiskundige woordredeneerbenchmark, naast verbeteringen op een verzameling andere taken. Analyse suggereert dat Contrastive Decoding bestaande methoden verbetert door sommige abstracte redeneerfouten te voorkomen, evenals door eenvoudigere modi te vermijden, zoals het kopiëren van delen van de invoer tijdens chain-of-thought. Over het algemeen overtreft Contrastive Decoding nucleus sampling voor langlopende generatie en greedy decoding voor redeneertaken, waardoor het een krachtige algemene methode is voor het genereren van tekst uit taalmodelen.
De snelle vooruitgang van grote taalmmodellen (LLMs) heeft een revolutie teweeggebracht in natuurlijke taalverwerking (NLP). Hoewel deze modellen uitblinken in het begrijpen en genereren van mensachtige tekst, kan hun grootschalige inzet buitensporig kostbaar zijn. SortedNet is een recente trainingsmethode die dynamische inferentie mogelijk maakt voor diepe neurale netwerken. Het maakt gebruik van netwerkmodulariteit om submodellen te creëren met variërende rekenlast, die op een geneste manier worden gesorteerd op basis van rekenkracht/nauwkeurigheidskenmerken. We breiden SortedNet uit naar generatieve NLP-taken, waardoor grote taalmmodellen dynamisch worden zonder enige voorafgaande training en door alleen de standaard Supervised Fine-Tuning (SFT) te vervangen door Sorted Fine-Tuning (SoFT) tegen dezelfde kosten. Onze aanpak verbetert de efficiëntie van het model en elimineert de noodzaak voor meerdere modellen voor verschillende scenario's tijdens inferentie. We tonen aan dat we met deze aanpak het potentieel van tussenlagen van transformers kunnen benutten bij het genereren van het doeloutput. Onze submodellen blijven integrale componenten van het oorspronkelijke model, waardoor de opslagbehoeften en overgangskosten tussen verschillende rekenkracht/latentiebudgetten worden geminimaliseerd. Door deze aanpak toe te passen op LLaMa 2 13B voor afstemming op de Stanford Alpaca-dataset en deze te vergelijken met normale afstemming en vroegtijdig afsluiten via de PandaLM-benchmark, tonen we aan dat Sorted Fine-Tuning modellen kan opleveren die twee keer zo snel zijn als het oorspronkelijke model, terwijl de prestaties behouden blijven of zelfs worden overtroffen.
Grote taalmmodellen (LLMs) hebben opmerkelijke prestaties getoond bij een verscheidenheid aan natuurlijke taal taken op basis van slechts enkele voorbeelden van natuurlijke taal instructies, waardoor de behoefte aan uitgebreide feature engineering wordt verminderd. Echter, de krachtigste LLMs zijn gesloten bron of beperkt in hun mogelijkheden voor talen anders dan Engels. In dit technische rapport presenteren we Baichuan 2, een reeks grootschalige meertalige taalmmodellen met 7 miljard en 13 miljard parameters, van scratch getraind op 2,6 biljoen tokens. Baichuan 2 evenaart of overtreft andere open-source modellen van vergelijkbare grootte op publieke benchmarks zoals MMLU, CMMLU, GSM8K en HumanEval. Bovendien blinkt Baichuan 2 uit in verticale domeinen zoals geneeskunde en recht. We zullen alle pre-trainingsmodel checkpoints vrijgeven om de onderzoeksgemeenschap te ondersteunen bij het beter begrijpen van de trainingsdynamiek van Baichuan 2.
Visuele instructie-afstemming heeft recentelijk veelbelovende vooruitgang geboekt met open-source grote multimodale modellen (LMM) zoals LLaVA en MiniGPT-4. De meeste bestaande studies van open-source LMM worden echter uitgevoerd met modellen van 13B parameters of kleiner. In dit paper presenteren we een empirische studie van het opschalen van LLaVA tot 33B en 65B/70B, en delen we onze bevindingen uit onze verkenningen van beeldresolutie, datamenging en parameter-efficiënte trainingsmethoden zoals LoRA/QLoRA. Deze worden geëvalueerd op basis van hun impact op de multimodale en taalvaardigheden bij het uitvoeren van real-world taken in de praktijk. We constateren dat het opschalen van LMM consistent de modelprestaties verbetert en de taalvaardigheden versterkt, en dat de prestaties van LoRA/QLoRA-afstemming van LMM vergelijkbaar zijn met de prestaties van volledige model-finetuning. Daarnaast benadrukt de studie het belang van hogere beeldresoluties en het mengen van multimodale-taalgegevens om de prestaties van LMM te verbeteren, en kan visuele instructie-afstemming soms de pure taalvaardigheid van LMM verbeteren. We hopen dat deze studie state-of-the-art LMM-onderzoek op grotere schaal toegankelijker maakt, waardoor sterkere basislijnen voor toekomstig onderzoek worden gevestigd. Code en checkpoints zullen openbaar worden gemaakt.
Grafische lay-outgeneratie, een groeiend onderzoeksveld, speelt een belangrijke rol in gebruikersbetrokkenheid en informatieperceptie. Bestaande methoden behandelen lay-outgeneratie voornamelijk als een numerieke optimalisatietaak, waarbij ze zich richten op kwantitatieve aspecten en de semantische informatie van de lay-out over het hoofd zien, zoals de relatie tussen elk lay-outelement. In dit artikel stellen we LayoutNUWA voor, het eerste model dat lay-outgeneratie behandelt als een codegeneratietaak om de semantische informatie te versterken en de verborgen lay-outexpertise van grote taalmodellen (LLMs) te benutten. Concreet ontwikkelen we een Code Instruct Tuning (CIT)-aanpak die bestaat uit drie onderling verbonden modules: 1) de Code Initialization (CI)-module kwantificeert de numerieke voorwaarden en initialiseert deze als HTML-code met strategisch geplaatste maskers; 2) de Code Completion (CC)-module maakt gebruik van de opmaakkennis van LLMs om de gemaskeerde delen in de HTML-code in te vullen; 3) de Code Rendering (CR)-module transformeert de voltooide code naar de uiteindelijke lay-outoutput, wat zorgt voor een zeer interpreteerbaar en transparant lay-outgeneratieproces dat code direct naar een gevisualiseerde lay-out vertaalt. We behalen aanzienlijke state-of-the-art prestaties (zelfs meer dan 50\% verbeteringen) op meerdere datasets, wat de sterke capaciteiten van LayoutNUWA aantoont. Onze code is beschikbaar op https://github.com/ProjectNUWA/LayoutNUWA.
Naarmate de snelle vooruitgang van praktische toepassingen gebaseerd op Large Language Models voortduurt, is het belang van het extrapoleren van prestaties exponentieel gegroeid in het onderzoeksdomein. In onze studie hebben we een afwijkend gedrag in Transformer-modellen geïdentificeerd dat eerder over het hoofd was gezien, wat leidde tot chaos rond de meest nabije tokens die de belangrijkste informatie droegen. We hebben deze ontdekking de "hoofdpijn van Transformers" genoemd. Om dit probleem bij de kern aan te pakken, hebben we een nieuwe zelf-attentiestructuur geïntroduceerd genaamd Collinear Constrained Attention (CoCA). Deze structuur kan naadloos worden geïntegreerd met bestaande extrapolatie-, interpolatiemethoden en andere optimalisatiestrategieën die zijn ontworpen voor traditionele Transformer-modellen. We hebben uitstekende extrapolatieprestaties bereikt, zelfs voor sequentielengtes van 16 tot 24 keer tijdens inferentie, zonder enige fine-tuning van ons model. We hebben ook de rekenkundige en ruimtelijke efficiëntie van CoCA verbeterd om de praktische bruikbaarheid te waarborgen. We zijn van plan CoCA binnenkort open source te maken. In de tussentijd hebben we onze code beschikbaar gesteld in de bijlage voor het reproduceren van experimenten.
Grote Taalmodellen (LLMs) hebben de capaciteit om complexe planning uit te voeren in een multi-agent systeem en kunnen deze agenten coördineren om geavanceerde taken te voltooien die uitgebreide samenwerking vereisen. Ondanks de introductie van talrijke gaming frameworks, heeft de gemeenschap echter onvoldoende benchmarks voor het bouwen van een algemene infrastructuur voor multi-agent samenwerking die zowel LLM- als mens-NPC-samenwerking omvat. In dit werk stellen we een nieuwe infrastructuur voor - MindAgent - om de emergentie van plannings- en coördinatievaardigheden voor gaming-interactie te evalueren. In het bijzonder maakt onze infrastructuur gebruik van bestaande gaming frameworks om i) begrip van de coördinator voor een multi-agent systeem te vereisen, ii) samen te werken met menselijke spelers via niet-gefine-tunede juiste instructies, en iii) een in-context leren op te zetten met few-shot prompts en feedback. Bovendien introduceren we CUISINEWORLD, een nieuw gaming scenario en gerelateerde benchmark die de efficiëntie van multi-agent samenwerking beoordeelt en meerdere agenten begeleidt die tegelijkertijd het spel spelen. We voeren uitgebreide evaluaties uit met een nieuwe auto-metriek CoS voor het berekenen van de samenwerkingsefficiëntie. Ten slotte kan onze infrastructuur worden ingezet in real-world gaming scenario's in een aangepaste VR-versie van CUISINEWORLD en worden aangepast in het bestaande bredere Minecraft gaming domein. We hopen dat onze bevindingen over LLMs en de nieuwe infrastructuur voor algemene planning en coördinatie kunnen bijdragen aan inzicht in hoe dergelijke vaardigheden kunnen worden verworven door te leren uit grote taalcorpora.
Grote Taalmodellen (LLMs) hebben een revolutie teweeggebracht in natuurlijke taalverwerking, maar het afstemmen van deze modellen op menselijke waarden en voorkeuren met behulp van Reinforcement Learning from Human Feedback (RLHF) blijft een aanzienlijke uitdaging. Deze uitdaging wordt gekenmerkt door diverse instabiliteiten, zoals reward hacking en catastrofaal vergeten. In dit technische rapport stellen we twee innovaties voor om de RLHF-training te stabiliseren: 1) het Voordeelmodel, dat direct de voordeelscore modelleert, d.w.z. de extra beloning in vergelijking met de verwachte beloningen, en de scoreverdelingen over taken reguleert om reward hacking te voorkomen. 2) Selectieve Herhaling, die catastrofaal vergeten vermindert door strategisch gegevens te selecteren voor PPO-training en kennisherhaling. Onze experimentele analyse op openbare en propriëtaire datasets toont aan dat de voorgestelde methoden niet alleen de stabiliteit in RLHF-training vergroten, maar ook hogere beloningsscores en winpercentages behalen.
Ondanks de kracht van grote taalmodellen (LLMs) zoals GPT-4, hebben ze nog steeds moeite met taken die het genereren van complexe, gestructureerde uitvoer vereisen. In deze studie evalueren we de capaciteit van huidige LLMs om complexe gestructureerde data te genereren en stellen we een structuurbewuste fine-tuning benadering voor als oplossing om deze vaardigheid te verbeteren. Om een uitgebreide evaluatie uit te voeren, introduceren we Struc-Bench, waarbij we vijf representatieve LLMs (namelijk GPT-NeoX 20B, GPT-3.5, GPT-4 en Vicuna) opnemen en evalueren op onze zorgvuldig samengestelde datasets die ruwe tekst, HTML en LaTeX-tabellen omvatten. Op basis van onze analyse van de huidige modelprestaties identificeren we specifieke veelvoorkomende opmaakfouten en gebieden met potentieel voor verbetering. Om aan complexe opmaakvereisten te voldoen, maken we gebruik van FormatCoT (Chain-of-Thought) om opmaakinstructies te genereren vanuit doeluitvoer. Onze experimenten tonen aan dat onze structuurbewuste fine-tuning methode, wanneer toegepast op LLaMA-7B, de naleving van natuurlijke taalbeperkingen aanzienlijk verbetert en daarmee andere geëvalueerde LLMs overtreft. Op basis van deze resultaten presenteren we een vaardigheidskaart van modelcapaciteiten vanuit zes dimensies (namelijk dekking, opmaak, redenering, begrip, pragmatiek en hallucinatie). Deze kaart benadrukt de zwaktes van LLMs in het omgaan met complexe gestructureerde uitvoer en suggereert veelbelovende richtingen voor toekomstig werk. Onze code en modellen zijn te vinden op https://github.com/gersteinlab/Struc-Bench.
Grote taalmodellen met instructievolgcapaciteiten hebben het vakgebied van kunstmatige intelligentie revolutionair veranderd. Deze modellen tonen een uitzonderlijke generaliseerbaarheid om diverse real-world taken aan te pakken via hun natuurlijke taalinterfaces. Hun prestaties zijn echter sterk afhankelijk van hoogwaardige voorbeeldgegevens, die vaak moeilijk te verkrijgen zijn. Deze uitdaging wordt verder verergerd wanneer het gaat om multimodale instructievolging. Wij introduceren TextBind, een bijna annotatievrij raamwerk om grotere taalmodellen te voorzien van de mogelijkheid tot multiturn interleaved multimodale instructievolging. Onze aanpak vereist alleen afbeelding-bijschriftparen en genereert multiturn multimodale instructie-responsgesprekken vanuit een taalmodel. Wij stellen onze dataset, ons model en onze demo beschikbaar om toekomstig onderzoek op het gebied van multimodale instructievolging te bevorderen.
Shampoo is een online en stochastisch optimalisatie-algoritme dat behoort tot de AdaGrad-familie van methoden voor het trainen van neurale netwerken. Het construeert een blokdiagonaal preconditioner waarbij elk blok bestaat uit een grove Kronecker-productbenadering van de volledige matrix AdaGrad voor elke parameter van het neurale netwerk. In dit werk bieden we een volledige beschrijving van het algoritme, evenals de prestatieoptimalisaties die onze implementatie benut om diepe netwerken op grote schaal te trainen in PyTorch. Onze implementatie maakt snelle multi-GPU gedistribueerde data-parallelle training mogelijk door het geheugen en de berekeningen die gepaard gaan met blokken van elke parameter te verdelen via PyTorch's DTensor-gegevensstructuur en een AllGather-primitief uit te voeren op de berekende zoekrichtingen bij elke iteratie. Deze belangrijke prestatieverbetering stelt ons in staat om hooguit een 10% prestatievermindering in de wandkloktijd per stap te bereiken in vergelijking met standaard diagonale schalingsgebaseerde adaptieve gradientmethoden. We valideren onze implementatie door een ablatiestudie uit te voeren op het trainen van ImageNet ResNet50, waarbij de superioriteit van Shampoo wordt aangetoond ten opzichte van standaard trainingsrecepten met minimale hyperparameterafstemming.
Bij muziekgeneratie op basis van taalmodellering wordt een gegenereerde golfvorm weergegeven door een reeks hiërarchische tokenstapels die op een autoregressieve manier of parallel kunnen worden gedecodeerd, afhankelijk van de codeboekpatronen. In het bijzonder vertegenwoordigt het afvlakken van de codeboeken de hoogste kwaliteit decodeerstrategie, hoewel dit berucht traag is. Daarom stellen we een nieuwe stapel-en-vertraging decodeerstrategie voor om de vlakke patroondecodering te verbeteren, waarbij de generatiesnelheid vier keer sneller is in vergelijking met standaard vlakke decodering. Dit brengt de inferentietijd dicht bij die van de vertragingsdecodeerstrategie en maakt snellere inferentie op GPU mogelijk voor kleine batchgroottes. Binnen hetzelfde inferentie-efficiëntiebudget als het vertragingspatroon, laten we zien dat de voorgestelde aanpak beter presteert in objectieve evaluaties en bijna de kwaliteitskloof met het vlakke patroon dicht. De resultaten worden bevestigd door subjectieve evaluaties die aantonen dat samples gegenereerd door het nieuwe model iets vaker de voorkeur krijgen boven samples gegenereerd door het concurrerende model bij dezelfde tekstprompts.
Het traditionele Dialogue State Tracking (DST)-probleem heeft als doel gebruikersvoorkeuren en intenties te volgen in gesprekken tussen gebruikers en agents. Hoewel dit voldoende is voor taakgerichte dialoogsystemen die smal domeingerichte toepassingen ondersteunen, heeft de opkomst van chat-systemen gebaseerd op Large Language Models (LLM) veel real-world complexiteiten geïntroduceerd in open-domein dialogen. Deze complexiteiten manifesteren zich in de vorm van een toegenomen complexiteit in contextuele interacties, langere dialoogsessies die een diverse reeks onderwerpen omvatten, en frequentere contextuele verschuivingen. Om deze complexiteiten aan te pakken die voortkomen uit de evoluerende LLM-gebaseerde chatsystemen, stellen we gezamenlijke dialoogsegmentatie en staatstracking per segment voor in open-domein dialoogsystemen. Uitgaande van een zero-shot instelling die geschikt is voor een echt open-domein dialoogsysteem, stellen we S3-DST voor, een gestructureerde promptingtechniek die gebruikmaakt van Pre-Analytical Recollection, een nieuw grondmechanisme dat we hebben ontworpen om het volgen van lange contexten te verbeteren. Om de effectiviteit van onze voorgestelde aanpak in gezamenlijke segmentatie en staatstracking aan te tonen, evalueren we S3-DST op een propriëtaire geanonimiseerde open-domein dialoogdataset, evenals op publiek beschikbare DST- en segmentatiedatasets. Over alle datasets en instellingen heen presteert S3-DST consistent beter dan de state-of-the-art, wat de kracht en robuustheid ervan aantoont voor de volgende generatie LLM-gebaseerde chatsystemen.
Modelaanpassing is cruciaal om het verschil tussen proxytrainingsgegevens en de daadwerkelijke gebruikersgegevens te hanteren. Om effectief aanpassing uit te voeren, worden tekstuele gegevens van gebruikers doorgaans opgeslagen op servers of hun lokale apparaten, waar downstream natural language processing (NLP)-modellen rechtstreeks kunnen worden getraind met dergelijke domeinspecifieke gegevens. Dit kan echter zorgen over privacy en veiligheid oproepen vanwege de extra risico's van het blootstellen van gebruikersinformatie aan tegenstanders. Het vervangen van identificerende informatie in tekstuele gegevens door een generieke marker is recentelijk onderzocht. In dit werk benutten we grote taalmmodellen (LLM's) om vervangingen van gemaskeerde tokens voor te stellen en hun effectiviteit te evalueren op downstream taalmodelleertaken. Specifiek stellen we meerdere vooraf getrainde en fijn afgestemde LLM-gebaseerde benaderingen voor en voeren we empirische studies uit op verschillende datasets om deze methoden te vergelijken. Experimentele resultaten tonen aan dat modellen die getraind zijn op de obfuscatiecorpora vergelijkbare prestaties kunnen bereiken met modellen die getraind zijn op de originele gegevens zonder privacybeschermende tokenmaskering.
Dit artikel presenteert een innovatieve aanpak om de controle over audiogeneratie te verbeteren door de afstemming tussen audio- en tekstrepresentaties tijdens de modeltraining te benadrukken. In de context van audiogeneratie op basis van taalmodelleering maakt het model gebruik van invoer van zowel tekstuele als audiotokenrepresentaties om volgende audiotokens te voorspellen. De huidige configuratie mist echter expliciete regularisatie om de afstemming tussen de gekozen tekstrepresentatie en de voorspellingen van het taalmodel te waarborgen. Ons voorstel omvat de integratie van regularisatie van audio- en tekstrepresentaties, met name tijdens de classifier-free guidance (CFG)-fase, waarbij de tekstconditie wordt uitgesloten van cross-attention tijdens de training van het taalmodel. Het doel van deze voorgestelde representatieregularisatie is om verschillen in audio- en tekstsimilariteit te minimaliseren in vergelijking met andere voorbeelden binnen dezelfde trainingsbatch. Experimentele resultaten voor zowel muziek- als audiogeneratietaken tonen aan dat onze voorgestelde methoden leiden tot verbeteringen in objectieve metrieken voor zowel audio- als muziekgeneratie, evenals een verbetering in de menselijke perceptie voor audiogeneratie.
Gesproken semantische parsing (SSP) houdt in dat er machine-begrijpelijke parses worden gegenereerd vanuit gesproken invoer. Het trainen van robuuste modellen voor bestaande toepassingsdomeinen die in trainingsdata zijn vertegenwoordigd, of het uitbreiden naar nieuwe domeinen, vereist corresponderende tripletten van spraak-transcript-semantische parse data, die kostbaar zijn om te verkrijgen. In dit artikel gaan we deze uitdaging aan door methoden te onderzoeken die transcript-semantische parse data (ongeïdentificeerde tekst) kunnen gebruiken zonder bijbehorende spraak. Ten eerste, wanneer ongeïdentificeerde tekst afkomstig is uit bestaande tekstuele corpora, worden Joint Audio Text (JAT) en Text-to-Speech (TTS) vergeleken als manieren om spraakrepresentaties te genereren voor ongeïdentificeerde tekst. Experimenten op de STOP-dataset laten zien dat ongeïdentificeerde tekst uit bestaande en nieuwe domeinen de prestaties verbetert met respectievelijk 2% en 30% in absolute Exact Match (EM). Ten tweede bekijken we de situatie waarin ongeïdentificeerde tekst niet beschikbaar is in bestaande tekstuele corpora. We stellen voor om Large Language Models (LLMs) te gebruiken om ongeïdentificeerde tekst te genereren voor bestaande en nieuwe domeinen. Experimenten tonen aan dat voorbeelden en woorden die samenvallen met intenties kunnen worden gebruikt om ongeïdentificeerde tekst te genereren met Llama 2.0. Het gebruik van de gegenereerde tekst met JAT en TTS voor gesproken semantische parsing verbetert de EM op STOP met respectievelijk 1.4% en 2.6% absoluut voor bestaande en nieuwe domeinen.