HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

20 papers found

CulturaX: Een Gereinigde, Enorme en Meertalige Dataset voor Grote Taalmodellen in 167 Talen
CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large Language Models in 167 Languages

Sep 17

ByThuat Nguyen, Chien Van Nguyen, Viet Dac Lai, Hieu Man, Nghia Trung Ngo, Franck Dernoncourt, Ryan A. Rossi, Thien Huu Nguyen

De drijvende factoren achter de ontwikkeling van grote taalmodelen (LLMs) met indrukwekkende leerprestaties zijn hun enorme modelgroottes en uitgebreide trainingsdatasets. Samen met de vooruitgang in natuurlijke taalverwerking zijn LLMs vaak toegankelijk gemaakt voor het publiek om diepgaand onderzoek en toepassingen te bevorderen. Wanneer het echter gaat om trainingsdatasets voor deze LLMs, met name de recente state-of-the-art modellen, worden deze vaak niet volledig vrijgegeven. Het creëren van trainingsdata voor hoogpresterende LLMs vereist uitgebreide reiniging en deduplicatie om het benodigde kwaliteitsniveau te waarborgen. Het gebrek aan transparantie rond trainingsdata heeft daardoor onderzoek naar het toeschrijven en aanpakken van hallucinatie- en biasproblemen in LLMs belemmerd, wat replicatiepogingen en verdere vooruitgang in de gemeenschap in de weg staat. Deze uitdagingen worden nog duidelijker in meertalige leeromgevingen, waar de beschikbare meertalige tekstdatasets vaak onvoldoende zijn verzameld en gereinigd. Hierdoor ontbreekt het aan open-source en direct bruikbare datasets om LLMs effectief in meerdere talen te trainen. Om dit probleem te overwinnen, presenteren we CulturaX, een omvangrijke meertalige dataset met 6,3 biljoen tokens in 167 talen, speciaal ontwikkeld voor LLM-ontwikkeling. Onze dataset ondergaat een zorgvuldige reiniging en deduplicatie via een rigoureus pijplijnproces met meerdere fasen om de beste kwaliteit voor modeltraining te bereiken, waaronder taalidentificatie, URL-gebaseerde filtering, metriek-gebaseerde reiniging, documentverfijning en datadeduplicatie. CulturaX wordt volledig vrijgegeven aan het publiek op HuggingFace om onderzoek en vooruitgang in meertalige LLMs te faciliteren: https://huggingface.co/datasets/uonlp/CulturaX.

Grote Taalmodellen aanpassen via Leesbegrip
Adapting Large Language Models via Reading Comprehension

Sep 18

ByDaixuan Cheng, Shaohan Huang, Furu Wei

We onderzoeken hoe voortgezette pre-training op domeinspecifieke corpora grote taalmodellen beïnvloedt, en ontdekken dat training op de ruwe corpora het model domeinkennis bijbrengt, maar zijn promptvaardigheid voor vraagbeantwoording aanzienlijk schaadt. Geïnspireerd door menselijk leren via begrijpend lezen—oefening na het lezen verbetert het vermogen om vragen te beantwoorden op basis van de opgedane kennis—stellen we een eenvoudige methode voor om ruwe corpora om te zetten in teksten voor begrijpend lezen. Elke ruwe tekst wordt verrijkt met een reeks taken die verband houden met de inhoud ervan. Onze methode, die zeer schaalbaar is en toepasbaar op alle pre-training corpora, verbetert consistent de prestaties bij verschillende taken in drie verschillende domeinen: biomedische wetenschappen, financiën en recht. Opmerkelijk is dat ons 7B-taalmodel competitieve prestaties behaalt met domeinspecifieke modellen van veel grotere omvang, zoals BloombergGPT-50B. Bovendien tonen we aan dat domeinspecifieke teksten voor begrijpend lezen de prestaties van het model zelfs op algemene benchmarks kunnen verbeteren, wat het potentieel aantoont om een algemeen model te ontwikkelen voor nog meer domeinen. Ons model, code en gegevens zullen beschikbaar zijn op https://github.com/microsoft/LMOps.

PDFTriage: Vragen Beantwoorden over Lange, Gestructureerde Documenten
PDFTriage: Question Answering over Long, Structured Documents

Sep 16

ByJon Saad-Falcon, Joe Barrow, Alexa Siu, Ani Nenkova, Ryan A. Rossi, Franck Dernoncourt

Grote Taalmodellen (LLMs) hebben problemen met het beantwoorden van vragen over documenten (QA) in situaties waarin het document niet past in de beperkte contextlengte van een LLM. Om dit probleem te overwinnen, richten de meeste bestaande werken zich op het ophalen van de relevante context uit het document, waarbij deze als platte tekst wordt weergegeven. Echter, documenten zoals PDF's, webpagina's en presentaties zijn van nature gestructureerd met verschillende pagina's, tabellen, secties, enzovoort. Het weergeven van dergelijke gestructureerde documenten als platte tekst is niet in overeenstemming met het mentale model van de gebruiker van deze documenten met een rijke structuur. Wanneer een systeem de context uit het document moet opvragen, komt deze incongruentie naar voren, en schijnbaar triviale vragen kunnen het QA-systeem in de problemen brengen. Om deze fundamentele kloof in het omgaan met gestructureerde documenten te overbruggen, stellen we een aanpak genaamd PDFTriage voor, waarmee modellen de context kunnen ophalen op basis van structuur of inhoud. Onze experimenten tonen de effectiviteit aan van de voorgestelde PDFTriage-versterkte modellen voor verschillende klassen van vragen waar bestaande retrieval-versterkte LLMs falen. Om verder onderzoek naar dit fundamentele probleem te faciliteren, geven we onze benchmarkdataset vrij, bestaande uit 900+ door mensen gegenereerde vragen over 80 gestructureerde documenten uit 10 verschillende categorieën van vraagtypen voor document QA.

Multimodale Fundamentele Modellen: Van Specialisten naar Algemene Assistenten
Multimodal Foundation Models: From Specialists to General-Purpose Assistants

Sep 18

ByChunyuan Li, Zhe Gan, Zhengyuan Yang, Jianwei Yang, Linjie Li, Lijuan Wang, Jianfeng Gao

Dit artikel presenteert een uitgebreid overzicht van de taxonomie en evolutie van multimodale foundation-modellen die visuele en visueel-taalkundige capaciteiten demonstreren, met een focus op de overgang van gespecialiseerde modellen naar algemene assistenten. Het onderzoekslandschap omvat vijf kernonderwerpen, ingedeeld in twee categorieën. (i) We beginnen met een overzicht van goed gevestigde onderzoeksgebieden: multimodale foundation-modellen die vooraf zijn getraind voor specifieke doeleinden, inclusief twee onderwerpen -- methoden voor het leren van visuele backbones voor visueel begrip en tekst-naar-beeldgeneratie. (ii) Vervolgens presenteren we recente ontwikkelingen in verkennende, open onderzoeksgebieden: multimodale foundation-modellen die de rol van algemene assistenten beogen te vervullen, inclusief drie onderwerpen -- geünificeerde visuele modellen geïnspireerd door grote taalmmodellen (LLMs), end-to-end training van multimodale LLMs, en het koppelen van multimodale tools met LLMs. Het beoogde publiek van het artikel bestaat uit onderzoekers, promovendi en professionals in de computer vision en visueel-taalkundige multimodale gemeenschappen die geïnteresseerd zijn in de basisprincipes en recente ontwikkelingen in multimodale foundation-modellen.

Contrastief decoderen verbetert het redeneervermogen van grote taalmodellen.
Contrastive Decoding Improves Reasoning in Large Language Models

Sep 17

BySean O'Brien, Mike Lewis

We tonen aan dat Contrastive Decoding -- een eenvoudige, computationeel lichte en trainingsvrije tekstgeneratiemethode voorgesteld door Li et al. 2022 -- grote out-of-the-box verbeteringen bereikt ten opzichte van greedy decoding bij een verscheidenheid aan redeneertaken. Oorspronkelijk getoond om de waargenomen kwaliteit van langlopende tekstgeneratie te verbeteren, zoekt Contrastive Decoding naar strings die een gewogen verschil in waarschijnlijkheid maximaliseren tussen sterke en zwakke modellen. We laten zien dat Contrastive Decoding ervoor zorgt dat LLaMA-65B LLaMA 2, GPT-3.5 en PaLM 2-L overtreft op de HellaSwag commonsense redeneerbenchmark, en dat het LLaMA 2, GPT-3.5 en PaLM-540B overtreft op de GSM8K wiskundige woordredeneerbenchmark, naast verbeteringen op een verzameling andere taken. Analyse suggereert dat Contrastive Decoding bestaande methoden verbetert door sommige abstracte redeneerfouten te voorkomen, evenals door eenvoudigere modi te vermijden, zoals het kopiëren van delen van de invoer tijdens chain-of-thought. Over het algemeen overtreft Contrastive Decoding nucleus sampling voor langlopende generatie en greedy decoding voor redeneertaken, waardoor het een krachtige algemene methode is voor het genereren van tekst uit taalmodelen.

Gesorteerde LLaMA: Het Ontgrendelen van het Potentieel van Intermediaire Lagen van Grote Taalmodellen voor Dynamische Inferentie met Gesorteerde Fine-Tuning (SoFT)
Sorted LLaMA: Unlocking the Potential of Intermediate Layers of Large Language Models for Dynamic Inference Using Sorted Fine-Tuning (SoFT)

Sep 16

ByParsa Kavehzadeh, Mojtaba Valipour, Marzieh Tahaei, Ali Ghodsi, Boxing Chen, Mehdi Rezagholizadeh

De snelle vooruitgang van grote taalmmodellen (LLMs) heeft een revolutie teweeggebracht in natuurlijke taalverwerking (NLP). Hoewel deze modellen uitblinken in het begrijpen en genereren van mensachtige tekst, kan hun grootschalige inzet buitensporig kostbaar zijn. SortedNet is een recente trainingsmethode die dynamische inferentie mogelijk maakt voor diepe neurale netwerken. Het maakt gebruik van netwerkmodulariteit om submodellen te creëren met variërende rekenlast, die op een geneste manier worden gesorteerd op basis van rekenkracht/nauwkeurigheidskenmerken. We breiden SortedNet uit naar generatieve NLP-taken, waardoor grote taalmmodellen dynamisch worden zonder enige voorafgaande training en door alleen de standaard Supervised Fine-Tuning (SFT) te vervangen door Sorted Fine-Tuning (SoFT) tegen dezelfde kosten. Onze aanpak verbetert de efficiëntie van het model en elimineert de noodzaak voor meerdere modellen voor verschillende scenario's tijdens inferentie. We tonen aan dat we met deze aanpak het potentieel van tussenlagen van transformers kunnen benutten bij het genereren van het doeloutput. Onze submodellen blijven integrale componenten van het oorspronkelijke model, waardoor de opslagbehoeften en overgangskosten tussen verschillende rekenkracht/latentiebudgetten worden geminimaliseerd. Door deze aanpak toe te passen op LLaMa 2 13B voor afstemming op de Stanford Alpaca-dataset en deze te vergelijken met normale afstemming en vroegtijdig afsluiten via de PandaLM-benchmark, tonen we aan dat Sorted Fine-Tuning modellen kan opleveren die twee keer zo snel zijn als het oorspronkelijke model, terwijl de prestaties behouden blijven of zelfs worden overtroffen.

Baichuan 2: Open Grootschalige Taalmodellen
Baichuan 2: Open Large-scale Language Models

Sep 19

ByAiyuan Yang, Bin Xiao, Bingning Wang, Borong Zhang, Chao Yin, Chenxu Lv, Da Pan, Dian Wang, Dong Yan, Fan Yang, Fei Deng, Feng Wang, Feng Liu, Guangwei Ai, Guosheng Dong Haizhou Zhao, Hang Xu, Haoze Sun, Hongda Zhang, Hui Liu, Jiaming Ji, Jian Xie, Juntao Dai, Kun Fang, Lei Su Liang Song, Lifeng Liu, Liyun Ru, Luyao Ma, Mang Wang, Mickel Liu, MingAn Lin, Nuolan Nie, Peidong Guo, Ruiyang Sun, Tao Zhang, Tianpeng Li, Tianyu Li, Wei Cheng, Weipeng Chen, Xiangrong Zeng, Xiaochuan Wang, Xiaoxi Chen, Xin Men, Xin Yu, Xuehai Pan, Yanjun Shen, Yiding Wang, Yiyu Li, Youxin Jiang, Yuchen Gao, Yupeng Zhang, Zenan Zhou, Zhiying Wu

Grote taalmmodellen (LLMs) hebben opmerkelijke prestaties getoond bij een verscheidenheid aan natuurlijke taal taken op basis van slechts enkele voorbeelden van natuurlijke taal instructies, waardoor de behoefte aan uitgebreide feature engineering wordt verminderd. Echter, de krachtigste LLMs zijn gesloten bron of beperkt in hun mogelijkheden voor talen anders dan Engels. In dit technische rapport presenteren we Baichuan 2, een reeks grootschalige meertalige taalmmodellen met 7 miljard en 13 miljard parameters, van scratch getraind op 2,6 biljoen tokens. Baichuan 2 evenaart of overtreft andere open-source modellen van vergelijkbare grootte op publieke benchmarks zoals MMLU, CMMLU, GSM8K en HumanEval. Bovendien blinkt Baichuan 2 uit in verticale domeinen zoals geneeskunde en recht. We zullen alle pre-trainingsmodel checkpoints vrijgeven om de onderzoeksgemeenschap te ondersteunen bij het beter begrijpen van de trainingsdynamiek van Baichuan 2.

Een Empirische Studie naar het Schalen van Instructie-afgestemde Grote Multimodale Modellen
An Empirical Study of Scaling Instruct-Tuned Large Multimodal Models

Sep 18

ByYadong Lu, Chunyuan Li, Haotian Liu, Jianwei Yang, Jianfeng Gao, Yelong Shen

Visuele instructie-afstemming heeft recentelijk veelbelovende vooruitgang geboekt met open-source grote multimodale modellen (LMM) zoals LLaVA en MiniGPT-4. De meeste bestaande studies van open-source LMM worden echter uitgevoerd met modellen van 13B parameters of kleiner. In dit paper presenteren we een empirische studie van het opschalen van LLaVA tot 33B en 65B/70B, en delen we onze bevindingen uit onze verkenningen van beeldresolutie, datamenging en parameter-efficiënte trainingsmethoden zoals LoRA/QLoRA. Deze worden geëvalueerd op basis van hun impact op de multimodale en taalvaardigheden bij het uitvoeren van real-world taken in de praktijk. We constateren dat het opschalen van LMM consistent de modelprestaties verbetert en de taalvaardigheden versterkt, en dat de prestaties van LoRA/QLoRA-afstemming van LMM vergelijkbaar zijn met de prestaties van volledige model-finetuning. Daarnaast benadrukt de studie het belang van hogere beeldresoluties en het mengen van multimodale-taalgegevens om de prestaties van LMM te verbeteren, en kan visuele instructie-afstemming soms de pure taalvaardigheid van LMM verbeteren. We hopen dat deze studie state-of-the-art LMM-onderzoek op grotere schaal toegankelijker maakt, waardoor sterkere basislijnen voor toekomstig onderzoek worden gevestigd. Code en checkpoints zullen openbaar worden gemaakt.

LayoutNUWA: Het Verborgen Lay-out Expertise van Grote Taalmodellen Onthullen
LayoutNUWA: Revealing the Hidden Layout Expertise of Large Language Models

Sep 18

ByZecheng Tang, Chenfei Wu, Juntao Li, Nan Duan

Grafische lay-outgeneratie, een groeiend onderzoeksveld, speelt een belangrijke rol in gebruikersbetrokkenheid en informatieperceptie. Bestaande methoden behandelen lay-outgeneratie voornamelijk als een numerieke optimalisatietaak, waarbij ze zich richten op kwantitatieve aspecten en de semantische informatie van de lay-out over het hoofd zien, zoals de relatie tussen elk lay-outelement. In dit artikel stellen we LayoutNUWA voor, het eerste model dat lay-outgeneratie behandelt als een codegeneratietaak om de semantische informatie te versterken en de verborgen lay-outexpertise van grote taalmodellen (LLMs) te benutten. Concreet ontwikkelen we een Code Instruct Tuning (CIT)-aanpak die bestaat uit drie onderling verbonden modules: 1) de Code Initialization (CI)-module kwantificeert de numerieke voorwaarden en initialiseert deze als HTML-code met strategisch geplaatste maskers; 2) de Code Completion (CC)-module maakt gebruik van de opmaakkennis van LLMs om de gemaskeerde delen in de HTML-code in te vullen; 3) de Code Rendering (CR)-module transformeert de voltooide code naar de uiteindelijke lay-outoutput, wat zorgt voor een zeer interpreteerbaar en transparant lay-outgeneratieproces dat code direct naar een gevisualiseerde lay-out vertaalt. We behalen aanzienlijke state-of-the-art prestaties (zelfs meer dan 50\% verbeteringen) op meerdere datasets, wat de sterke capaciteiten van LayoutNUWA aantoont. Onze code is beschikbaar op https://github.com/ProjectNUWA/LayoutNUWA.

Verlicht de last van Transformers via Collineair Beperkte Aandacht
Cure the headache of Transformers via Collinear Constrained Attention

Sep 15

ByShiyi Zhu, Jing Ye, Wei Jiang, Qi Zhang, Yifan Wu, Jianguo Li

Naarmate de snelle vooruitgang van praktische toepassingen gebaseerd op Large Language Models voortduurt, is het belang van het extrapoleren van prestaties exponentieel gegroeid in het onderzoeksdomein. In onze studie hebben we een afwijkend gedrag in Transformer-modellen geïdentificeerd dat eerder over het hoofd was gezien, wat leidde tot chaos rond de meest nabije tokens die de belangrijkste informatie droegen. We hebben deze ontdekking de "hoofdpijn van Transformers" genoemd. Om dit probleem bij de kern aan te pakken, hebben we een nieuwe zelf-attentiestructuur geïntroduceerd genaamd Collinear Constrained Attention (CoCA). Deze structuur kan naadloos worden geïntegreerd met bestaande extrapolatie-, interpolatiemethoden en andere optimalisatiestrategieën die zijn ontworpen voor traditionele Transformer-modellen. We hebben uitstekende extrapolatieprestaties bereikt, zelfs voor sequentielengtes van 16 tot 24 keer tijdens inferentie, zonder enige fine-tuning van ons model. We hebben ook de rekenkundige en ruimtelijke efficiëntie van CoCA verbeterd om de praktische bruikbaarheid te waarborgen. We zijn van plan CoCA binnenkort open source te maken. In de tussentijd hebben we onze code beschikbaar gesteld in de bijlage voor het reproduceren van experimenten.

MindAgent: Emergente Spelinteractie
MindAgent: Emergent Gaming Interaction

Sep 18

ByRan Gong, Qiuyuan Huang, Xiaojian Ma, Hoi Vo, Zane Durante, Yusuke Noda, Zilong Zheng, Song-Chun Zhu, Demetri Terzopoulos, Li Fei-Fei, Jianfeng Gao

Grote Taalmodellen (LLMs) hebben de capaciteit om complexe planning uit te voeren in een multi-agent systeem en kunnen deze agenten coördineren om geavanceerde taken te voltooien die uitgebreide samenwerking vereisen. Ondanks de introductie van talrijke gaming frameworks, heeft de gemeenschap echter onvoldoende benchmarks voor het bouwen van een algemene infrastructuur voor multi-agent samenwerking die zowel LLM- als mens-NPC-samenwerking omvat. In dit werk stellen we een nieuwe infrastructuur voor - MindAgent - om de emergentie van plannings- en coördinatievaardigheden voor gaming-interactie te evalueren. In het bijzonder maakt onze infrastructuur gebruik van bestaande gaming frameworks om i) begrip van de coördinator voor een multi-agent systeem te vereisen, ii) samen te werken met menselijke spelers via niet-gefine-tunede juiste instructies, en iii) een in-context leren op te zetten met few-shot prompts en feedback. Bovendien introduceren we CUISINEWORLD, een nieuw gaming scenario en gerelateerde benchmark die de efficiëntie van multi-agent samenwerking beoordeelt en meerdere agenten begeleidt die tegelijkertijd het spel spelen. We voeren uitgebreide evaluaties uit met een nieuwe auto-metriek CoS voor het berekenen van de samenwerkingsefficiëntie. Ten slotte kan onze infrastructuur worden ingezet in real-world gaming scenario's in een aangepaste VR-versie van CUISINEWORLD en worden aangepast in het bestaande bredere Minecraft gaming domein. We hopen dat onze bevindingen over LLMs en de nieuwe infrastructuur voor algemene planning en coördinatie kunnen bijdragen aan inzicht in hoe dergelijke vaardigheden kunnen worden verworven door te leren uit grote taalcorpora.

Stabilisatie van RLHF via het Advantage Model en Selectieve Herhaling
Stabilizing RLHF through Advantage Model and Selective Rehearsal

Sep 18

ByBaolin Peng, Linfeng Song, Ye Tian, Lifeng Jin, Haitao Mi, Dong Yu

Grote Taalmodellen (LLMs) hebben een revolutie teweeggebracht in natuurlijke taalverwerking, maar het afstemmen van deze modellen op menselijke waarden en voorkeuren met behulp van Reinforcement Learning from Human Feedback (RLHF) blijft een aanzienlijke uitdaging. Deze uitdaging wordt gekenmerkt door diverse instabiliteiten, zoals reward hacking en catastrofaal vergeten. In dit technische rapport stellen we twee innovaties voor om de RLHF-training te stabiliseren: 1) het Voordeelmodel, dat direct de voordeelscore modelleert, d.w.z. de extra beloning in vergelijking met de verwachte beloningen, en de scoreverdelingen over taken reguleert om reward hacking te voorkomen. 2) Selectieve Herhaling, die catastrofaal vergeten vermindert door strategisch gegevens te selecteren voor PPO-training en kennisherhaling. Onze experimentele analyse op openbare en propriëtaire datasets toont aan dat de voorgestelde methoden niet alleen de stabiliteit in RLHF-training vergroten, maar ook hogere beloningsscores en winpercentages behalen.

Struc-Bench: Zijn grote taalmodellen echt goed in het genereren van complexe gestructureerde data?
Struc-Bench: Are Large Language Models Really Good at Generating Complex Structured Data?

Sep 16

ByXiangru Tang, Yiming Zong, Yilun Zhao, Arman Cohan, Mark Gerstein

Ondanks de kracht van grote taalmodellen (LLMs) zoals GPT-4, hebben ze nog steeds moeite met taken die het genereren van complexe, gestructureerde uitvoer vereisen. In deze studie evalueren we de capaciteit van huidige LLMs om complexe gestructureerde data te genereren en stellen we een structuurbewuste fine-tuning benadering voor als oplossing om deze vaardigheid te verbeteren. Om een uitgebreide evaluatie uit te voeren, introduceren we Struc-Bench, waarbij we vijf representatieve LLMs (namelijk GPT-NeoX 20B, GPT-3.5, GPT-4 en Vicuna) opnemen en evalueren op onze zorgvuldig samengestelde datasets die ruwe tekst, HTML en LaTeX-tabellen omvatten. Op basis van onze analyse van de huidige modelprestaties identificeren we specifieke veelvoorkomende opmaakfouten en gebieden met potentieel voor verbetering. Om aan complexe opmaakvereisten te voldoen, maken we gebruik van FormatCoT (Chain-of-Thought) om opmaakinstructies te genereren vanuit doeluitvoer. Onze experimenten tonen aan dat onze structuurbewuste fine-tuning methode, wanneer toegepast op LLaMA-7B, de naleving van natuurlijke taalbeperkingen aanzienlijk verbetert en daarmee andere geëvalueerde LLMs overtreft. Op basis van deze resultaten presenteren we een vaardigheidskaart van modelcapaciteiten vanuit zes dimensies (namelijk dekking, opmaak, redenering, begrip, pragmatiek en hallucinatie). Deze kaart benadrukt de zwaktes van LLMs in het omgaan met complexe gestructureerde uitvoer en suggereert veelbelovende richtingen voor toekomstig werk. Onze code en modellen zijn te vinden op https://github.com/gersteinlab/Struc-Bench.

TextBind: Multiturn Interleaved Multimodale Instructievolging
TextBind: Multi-turn Interleaved Multimodal Instruction-following

Sep 14

ByHuayang Li, Siheng Li, Deng Cai, Longyue Wang, Lemao Liu, Taro Watanabe, Yujiu Yang, Shuming Shi

Grote taalmodellen met instructievolgcapaciteiten hebben het vakgebied van kunstmatige intelligentie revolutionair veranderd. Deze modellen tonen een uitzonderlijke generaliseerbaarheid om diverse real-world taken aan te pakken via hun natuurlijke taalinterfaces. Hun prestaties zijn echter sterk afhankelijk van hoogwaardige voorbeeldgegevens, die vaak moeilijk te verkrijgen zijn. Deze uitdaging wordt verder verergerd wanneer het gaat om multimodale instructievolging. Wij introduceren TextBind, een bijna annotatievrij raamwerk om grotere taalmodellen te voorzien van de mogelijkheid tot multiturn interleaved multimodale instructievolging. Onze aanpak vereist alleen afbeelding-bijschriftparen en genereert multiturn multimodale instructie-responsgesprekken vanuit een taalmodel. Wij stellen onze dataset, ons model en onze demo beschikbaar om toekomstig onderzoek op het gebied van multimodale instructievolging te bevorderen.

Een gedistribueerde data-parallelle PyTorch-implementatie van de gedistribueerde Shampoo-optimalisator voor het trainen van neurale netwerken op grote schaal
A Distributed Data-Parallel PyTorch Implementation of the Distributed Shampoo Optimizer for Training Neural Networks At-Scale

Sep 12

ByHao-Jun Michael Shi, Tsung-Hsien Lee, Shintaro Iwasaki, Jose Gallego-Posada, Zhijing Li, Kaushik Rangadurai, Dheevatsa Mudigere, Michael Rabbat

Shampoo is een online en stochastisch optimalisatie-algoritme dat behoort tot de AdaGrad-familie van methoden voor het trainen van neurale netwerken. Het construeert een blokdiagonaal preconditioner waarbij elk blok bestaat uit een grove Kronecker-productbenadering van de volledige matrix AdaGrad voor elke parameter van het neurale netwerk. In dit werk bieden we een volledige beschrijving van het algoritme, evenals de prestatieoptimalisaties die onze implementatie benut om diepe netwerken op grote schaal te trainen in PyTorch. Onze implementatie maakt snelle multi-GPU gedistribueerde data-parallelle training mogelijk door het geheugen en de berekeningen die gepaard gaan met blokken van elke parameter te verdelen via PyTorch's DTensor-gegevensstructuur en een AllGather-primitief uit te voeren op de berekende zoekrichtingen bij elke iteratie. Deze belangrijke prestatieverbetering stelt ons in staat om hooguit een 10% prestatievermindering in de wandkloktijd per stap te bereiken in vergelijking met standaard diagonale schalingsgebaseerde adaptieve gradientmethoden. We valideren onze implementatie door een ablatiestudie uit te voeren op het trainen van ImageNet ResNet50, waarbij de superioriteit van Shampoo wordt aangetoond ten opzichte van standaard trainingsrecepten met minimale hyperparameterafstemming.

Stack-and-Delay: een nieuw codeboekpatroon voor muziekgeneratie
Stack-and-Delay: a new codebook pattern for music generation

Sep 15

ByGael Le Lan, Varun Nagaraja, Ernie Chang, David Kant, Zhaoheng Ni, Yangyang Shi, Forrest Iandola, Vikas Chandra

Bij muziekgeneratie op basis van taalmodellering wordt een gegenereerde golfvorm weergegeven door een reeks hiërarchische tokenstapels die op een autoregressieve manier of parallel kunnen worden gedecodeerd, afhankelijk van de codeboekpatronen. In het bijzonder vertegenwoordigt het afvlakken van de codeboeken de hoogste kwaliteit decodeerstrategie, hoewel dit berucht traag is. Daarom stellen we een nieuwe stapel-en-vertraging decodeerstrategie voor om de vlakke patroondecodering te verbeteren, waarbij de generatiesnelheid vier keer sneller is in vergelijking met standaard vlakke decodering. Dit brengt de inferentietijd dicht bij die van de vertragingsdecodeerstrategie en maakt snellere inferentie op GPU mogelijk voor kleine batchgroottes. Binnen hetzelfde inferentie-efficiëntiebudget als het vertragingspatroon, laten we zien dat de voorgestelde aanpak beter presteert in objectieve evaluaties en bijna de kwaliteitskloof met het vlakke patroon dicht. De resultaten worden bevestigd door subjectieve evaluaties die aantonen dat samples gegenereerd door het nieuwe model iets vaker de voorkeur krijgen boven samples gegenereerd door het concurrerende model bij dezelfde tekstprompts.

S3-DST: Gestructureerde Open-Domein Dialoogsegmentatie en Statustracking in het Tijdperk van LLM's
S3-DST: Structured Open-Domain Dialogue Segmentation and State Tracking in the Era of LLMs

Sep 16

BySarkar Snigdha Sarathi Das, Chirag Shah, Mengting Wan, Jennifer Neville, Longqi Yang, Reid Andersen, Georg Buscher, Tara Safavi

Het traditionele Dialogue State Tracking (DST)-probleem heeft als doel gebruikersvoorkeuren en intenties te volgen in gesprekken tussen gebruikers en agents. Hoewel dit voldoende is voor taakgerichte dialoogsystemen die smal domeingerichte toepassingen ondersteunen, heeft de opkomst van chat-systemen gebaseerd op Large Language Models (LLM) veel real-world complexiteiten geïntroduceerd in open-domein dialogen. Deze complexiteiten manifesteren zich in de vorm van een toegenomen complexiteit in contextuele interacties, langere dialoogsessies die een diverse reeks onderwerpen omvatten, en frequentere contextuele verschuivingen. Om deze complexiteiten aan te pakken die voortkomen uit de evoluerende LLM-gebaseerde chatsystemen, stellen we gezamenlijke dialoogsegmentatie en staatstracking per segment voor in open-domein dialoogsystemen. Uitgaande van een zero-shot instelling die geschikt is voor een echt open-domein dialoogsysteem, stellen we S3-DST voor, een gestructureerde promptingtechniek die gebruikmaakt van Pre-Analytical Recollection, een nieuw grondmechanisme dat we hebben ontworpen om het volgen van lange contexten te verbeteren. Om de effectiviteit van onze voorgestelde aanpak in gezamenlijke segmentatie en staatstracking aan te tonen, evalueren we S3-DST op een propriëtaire geanonimiseerde open-domein dialoogdataset, evenals op publiek beschikbare DST- en segmentatiedatasets. Over alle datasets en instellingen heen presteert S3-DST consistent beter dan de state-of-the-art, wat de kracht en robuustheid ervan aantoont voor de volgende generatie LLM-gebaseerde chatsystemen.

Herstellen van privacybeschermende maskering met grote taalmodellen
Recovering from Privacy-Preserving Masking with Large Language Models

Sep 12

ByArpita Vats, Zhe Liu, Peng Su, Debjyoti Paul, Yingyi Ma, Yutong Pang, Zeeshan Ahmed, Ozlem Kalinli

Modelaanpassing is cruciaal om het verschil tussen proxytrainingsgegevens en de daadwerkelijke gebruikersgegevens te hanteren. Om effectief aanpassing uit te voeren, worden tekstuele gegevens van gebruikers doorgaans opgeslagen op servers of hun lokale apparaten, waar downstream natural language processing (NLP)-modellen rechtstreeks kunnen worden getraind met dergelijke domeinspecifieke gegevens. Dit kan echter zorgen over privacy en veiligheid oproepen vanwege de extra risico's van het blootstellen van gebruikersinformatie aan tegenstanders. Het vervangen van identificerende informatie in tekstuele gegevens door een generieke marker is recentelijk onderzocht. In dit werk benutten we grote taalmmodellen (LLM's) om vervangingen van gemaskeerde tokens voor te stellen en hun effectiviteit te evalueren op downstream taalmodelleertaken. Specifiek stellen we meerdere vooraf getrainde en fijn afgestemde LLM-gebaseerde benaderingen voor en voeren we empirische studies uit op verschillende datasets om deze methoden te vergelijken. Experimentele resultaten tonen aan dat modellen die getraind zijn op de obfuscatiecorpora vergelijkbare prestaties kunnen bereiken met modellen die getraind zijn op de originele gegevens zonder privacybeschermende tokenmaskering.

Verbeter de beheersbaarheid van audiogeneratie door regularisatie van representatiegelijkenis
Enhance audio generation controllability through representation similarity regularization

Sep 15

ByYangyang Shi, Gael Le Lan, Varun Nagaraja, Zhaoheng Ni, Xinhao Mei, Ernie Chang, Forrest Iandola, Yang Liu, Vikas Chandra

Dit artikel presenteert een innovatieve aanpak om de controle over audiogeneratie te verbeteren door de afstemming tussen audio- en tekstrepresentaties tijdens de modeltraining te benadrukken. In de context van audiogeneratie op basis van taalmodelleering maakt het model gebruik van invoer van zowel tekstuele als audiotokenrepresentaties om volgende audiotokens te voorspellen. De huidige configuratie mist echter expliciete regularisatie om de afstemming tussen de gekozen tekstrepresentatie en de voorspellingen van het taalmodel te waarborgen. Ons voorstel omvat de integratie van regularisatie van audio- en tekstrepresentaties, met name tijdens de classifier-free guidance (CFG)-fase, waarbij de tekstconditie wordt uitgesloten van cross-attention tijdens de training van het taalmodel. Het doel van deze voorgestelde representatieregularisatie is om verschillen in audio- en tekstsimilariteit te minimaliseren in vergelijking met andere voorbeelden binnen dezelfde trainingsbatch. Experimentele resultaten voor zowel muziek- als audiogeneratietaken tonen aan dat onze voorgestelde methoden leiden tot verbeteringen in objectieve metrieken voor zowel audio- als muziekgeneratie, evenals een verbetering in de menselijke perceptie voor audiogeneratie.

Het verrijken van tekst voor gesproken taalbegrip met behulp van Large Language Models
Augmenting text for spoken language understanding with Large Language Models

Sep 17

ByRoshan Sharma, Suyoun Kim, Daniel Lazar, Trang Le, Akshat Shrivastava, Kwanghoon Ahn, Piyush Kansal, Leda Sari, Ozlem Kalinli, Michael Seltzer

Gesproken semantische parsing (SSP) houdt in dat er machine-begrijpelijke parses worden gegenereerd vanuit gesproken invoer. Het trainen van robuuste modellen voor bestaande toepassingsdomeinen die in trainingsdata zijn vertegenwoordigd, of het uitbreiden naar nieuwe domeinen, vereist corresponderende tripletten van spraak-transcript-semantische parse data, die kostbaar zijn om te verkrijgen. In dit artikel gaan we deze uitdaging aan door methoden te onderzoeken die transcript-semantische parse data (ongeïdentificeerde tekst) kunnen gebruiken zonder bijbehorende spraak. Ten eerste, wanneer ongeïdentificeerde tekst afkomstig is uit bestaande tekstuele corpora, worden Joint Audio Text (JAT) en Text-to-Speech (TTS) vergeleken als manieren om spraakrepresentaties te genereren voor ongeïdentificeerde tekst. Experimenten op de STOP-dataset laten zien dat ongeïdentificeerde tekst uit bestaande en nieuwe domeinen de prestaties verbetert met respectievelijk 2% en 30% in absolute Exact Match (EM). Ten tweede bekijken we de situatie waarin ongeïdentificeerde tekst niet beschikbaar is in bestaande tekstuele corpora. We stellen voor om Large Language Models (LLMs) te gebruiken om ongeïdentificeerde tekst te genereren voor bestaande en nieuwe domeinen. Experimenten tonen aan dat voorbeelden en woorden die samenvallen met intenties kunnen worden gebruikt om ongeïdentificeerde tekst te genereren met Llama 2.0. Het gebruik van de gegenereerde tekst met JAT en TTS voor gesproken semantische parsing verbetert de EM op STOP met respectievelijk 1.4% en 2.6% absoluut voor bestaande en nieuwe domeinen.

CulturaX: Een Gereinigde, Enorme en Meertalige Dataset voor Grote Taalmodellen in 167 Talen
CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large Language Models in 167 Languages

Sep 17

ByThuat Nguyen, Chien Van Nguyen, Viet Dac Lai, Hieu Man, Nghia Trung Ngo, Franck Dernoncourt, Ryan A. Rossi, Thien Huu Nguyen