HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

10 papers found

ChatMusician: Muziek Intrinsiek Begrijpen en Genereren met LLM
ChatMusician: Understanding and Generating Music Intrinsically with LLM

Feb 25

ByRuibin Yuan, Hanfeng Lin, Yi Wang, Zeyue Tian, Shangda Wu, Tianhao Shen, Ge Zhang, Yuhang Wu, Cong Liu, Ziya Zhou, Ziyang Ma, Liumeng Xue, Ziyu Wang, Qin Liu, Tianyu Zheng, Yizhi Li, Yinghao Ma, Yiming Liang, Xiaowei Chi, Ruibo Liu, Zili Wang, Pengfei Li, Jingcheng Wu, Chenghua Lin, Qifeng Liu, Tao Jiang, Wenhao Huang, Wenhu Chen, Emmanouil Benetos, Jie Fu, Gus Xia, Roger Dannenberg, Wei Xue, Shiyin Kang, Yike Guo

Hoewel grote taalmmodellen (LLM's) indrukwekkende mogelijkheden demonstreren in tekstgeneratie, blijkt dat hun vermogen nog niet is gegeneraliseerd naar muziek, de creatieve taal van de mensheid. Wij introduceren ChatMusician, een open-source LLM dat intrinsieke muzikale vaardigheden integreert. Het is gebaseerd op voortdurende voorafgaande training en finetuning van LLaMA2 op een tekstcompatibele muziekrepresentatie, ABC-notatie, waarbij muziek wordt behandeld als een tweede taal. ChatMusician kan muziek begrijpen en genereren met een pure teksttokenizer, zonder externe multimodale neurale structuren of tokenizers. Interessant is dat het toekennen van muzikale vaardigheden de taalvaardigheden niet schaadt, en zelfs een iets hogere MMLU-score bereikt. Ons model is in staat om goed gestructureerde, volledige muziek te componeren, gebaseerd op teksten, akkoorden, melodieën, motieven, muzikale vormen, etc., en overtreft daarbij de GPT-4-baseline. Op ons zorgvuldig samengestelde, universitair niveau muziekbegrip benchmark, MusicTheoryBench, overtreft ChatMusician LLaMA2 en GPT-3.5 in een zero-shot setting met een aanzienlijke marge. Ons werk toont aan dat LLM's een uitstekende compressor voor muziek kunnen zijn, maar dat er nog aanzienlijk terrein te veroveren valt. We geven onze 4B token muziek-taalcorpora MusicPile, de verzamelde MusicTheoryBench, code, model en demo vrij op GitHub.

Nemotron-4 15B Technisch Rapport
Nemotron-4 15B Technical Report

Feb 26

ByJupinder Parmar, Shrimai Prabhumoye, Joseph Jennings, Mostofa Patwary, Sandeep Subramanian, Dan Su, Chen Zhu, Deepak Narayanan, Aastha Jhunjhunwala, Ayush Dattagupta, Vibhu Jawa, Jiwei Liu, Ameya Mahabaleshwarkar, Osvald Nitski, Annika Brundyn, James Maki, Miguel Martinez, Jiaxuan You, John Kamalu, Patrick LeGresley, Denys Fridman, Jared Casper, Ashwath Aithal, Oleksii Kuchaiev, Mohammad Shoeybi, Jonathan Cohen, Bryan Catanzaro

We introduceren Nemotron-4 15B, een groot meertalig taalmodel met 15 miljard parameters, getraind op 8 biljoen teksttokens. Nemotron-4 15B toont sterke prestaties bij evaluaties op Engels, meertalige en coderings taken: het overtreft alle bestaande open modellen van vergelijkbare grootte op 4 van de 7 downstream evaluatiegebieden en behaalt competitieve prestaties ten opzichte van de toonaangevende open modellen in de overige gebieden. Specifiek vertoont Nemotron-4 15B de beste meertalige capaciteiten van alle modellen van vergelijkbare grootte, waarbij het zelfs modellen overtreft die meer dan vier keer zo groot zijn en modellen die expliciet gespecialiseerd zijn in meertalige taken.

FuseChat: Kennisintegratie van Chatmodellen
FuseChat: Knowledge Fusion of Chat Models

Feb 25

ByFanqi Wan, Ziyi Yang, Longguang Zhong, Xiaojun Quan, Xinting Huang, Wei Bi

Hoewel het trainen van grote taalmodelen (LLMs) vanaf nul inderdaad kan leiden tot modellen met unieke capaciteiten en sterke punten, brengt deze aanpak aanzienlijke kosten met zich mee en kan het leiden tot potentiële redundantie in vaardigheden. Een alternatieve strategie is om bestaande LLMs te combineren tot een robuuster LLM, waardoor de noodzaak voor dure pre-training wordt verminderd. Echter, vanwege de diverse architecturen van LLMs blijkt directe parameterblending onhaalbaar. Recentelijk introduceerde FuseLLM het concept van kennisfusie om de collectieve kennis van meerdere structureel verschillende LLMs over te dragen naar een doel-LLM via lichtgewicht continue training. In dit rapport breiden we de schaalbaarheid en flexibiliteit van het FuseLLM-framework uit om de fusie van chat-LLMs te realiseren, wat resulteert in FuseChat. FuseChat bestaat uit twee hoofdstadia. Ten eerste ondernemen we kennisfusie voor structureel en schaalvariërende bron-LLMs om meerdere doel-LLMs van identieke structuur en grootte te verkrijgen via lichtgewicht fine-tuning. Vervolgens worden deze doel-LLMs samengevoegd binnen de parameterruimte, waarbij we een nieuwe methode voorstellen om de samenvoegingsgewichten te bepalen op basis van de variatieratio van parametermatrices voor en na fine-tuning. We valideren onze aanpak met drie prominente chat-LLMs met diverse architecturen en schalen, namelijk NH2-Mixtral-8x7B, NH2-Solar-10.7B en OpenChat-3.5-7B. Experimentele resultaten over verschillende chatdomeinen tonen de superioriteit van \textsc{FuseChat-7B} aan over een breed spectrum van chat-LLMs op 7B en 34B schalen, waarbij het zelfs GPT-3.5 (maart) overtreft en Mixtral-8x7B-Instruct benadert. Onze code, modelgewichten en data zijn openbaar toegankelijk op https://github.com/fanqiwan/FuseLLM.

MegaScale: Het Opschalen van Grote Taalmodeltraining naar Meer Dan 10.000 GPU's
MegaScale: Scaling Large Language Model Training to More Than 10,000 GPUs

Feb 23

ByZiheng Jiang, Haibin Lin, Yinmin Zhong, Qi Huang, Yangrui Chen, Zhi Zhang, Yanghua Peng, Xiang Li, Cong Xie, Shibiao Nong, Yulu Jia, Sun He, Hongmin Chen, Zhihao Bai, Qi Hou, Shipeng Yan, Ding Zhou, Yiyao Sheng, Zhuo Jiang, Haohan Xu, Haoran Wei, Zhang Zhang, Pengfei Nie, Leqi Zou, Sida Zhao, Liang Xiang, Zherui Liu, Zhe Li, Xiaoying Jia, Jianxi Ye, Xin Jin, Xin Liu

We presenteren het ontwerp, de implementatie en de technische ervaring bij het bouwen en inzetten van MegaScale, een productiesysteem voor het trainen van grote taalmodel(len) (LLM's) op een schaal van meer dan 10.000 GPU's. Het trainen van LLM's op deze schaal brengt ongekende uitdagingen met zich mee op het gebied van trainings efficiëntie en stabiliteit. We hanteren een full-stack benadering waarbij de algoritmische en systeemcomponenten gezamenlijk worden ontworpen, inclusief het ontwerp van modelblokken en optimalisatoren, overlapping van berekeningen en communicatie, optimalisatie van operatoren, de datapijplijn en afstemming van netwerkprestaties. Het behouden van een hoge efficiëntie gedurende het hele trainingsproces (d.w.z. stabiliteit) is een belangrijk aandachtspunt in productie, gezien de lange duur van LLM-trainingsjobs. Veel hardnekkige stabiliteitsproblemen komen pas op grote schaal naar voren, en diepgaande observeerbaarheid is de sleutel om deze aan te pakken. We hebben een set diagnostische tools ontwikkeld om systeemcomponenten en gebeurtenissen diep in de stack te monitoren, grondoorzaken te identificeren en effectieve technieken af te leiden om fouttolerantie te bereiken en achterblijvers te verminderen. MegaScale behaalt een Model FLOPs Utilisation (MFU) van 55,2% bij het trainen van een LLM-model van 175B op 12.288 GPU's, wat de MFU met 1,34x verbetert in vergelijking met Megatron-LM. We delen onze operationele ervaringen bij het identificeren en oplossen van fouten en achterblijvers. We hopen dat door het articuleren van de problemen en het delen van onze ervaring vanuit een systeemperspectief, dit werk toekomstig onderzoek naar LLM-systemen kan inspireren.

Multi-LoRA-samenstelling voor beeldgeneratie
Multi-LoRA Composition for Image Generation

Feb 26

ByMing Zhong, Yelong Shen, Shuohang Wang, Yadong Lu, Yizhu Jiao, Siru Ouyang, Donghan Yu, Jiawei Han, Weizhu Chen

Low-Rank Adaptation (LoRA) wordt uitgebreid gebruikt in tekst-naar-beeldmodellen voor de nauwkeurige weergave van specifieke elementen zoals onderscheidende personages of unieke stijlen in gegenereerde afbeeldingen. Desalniettemin hebben bestaande methoden moeite met het effectief combineren van meerdere LoRA's, vooral wanneer het aantal te integreren LoRA's toeneemt, wat de creatie van complexe beelden belemmert. In dit artikel bestuderen we multi-LoRA-compositie vanuit een decoderingsgericht perspectief. We presenteren twee trainingsvrije methoden: LoRA Switch, die afwisselt tussen verschillende LoRA's bij elke denoisingstap, en LoRA Composite, die alle LoRA's gelijktijdig incorporeert om een meer samenhangende beeld synthese te begeleiden. Om de voorgestelde benaderingen te evalueren, hebben we ComposLoRA opgezet, een nieuwe uitgebreide testomgeving als onderdeel van dit onderzoek. Deze omvat een diverse reeks LoRA-categorieën met 480 compositiesets. Door gebruik te maken van een evaluatieraamwerk gebaseerd op GPT-4V, tonen onze bevindingen een duidelijke verbetering in prestaties met onze methoden ten opzichte van de gangbare baseline, wat vooral duidelijk wordt bij het verhogen van het aantal LoRA's in een compositie.

StructLM: Op weg naar generalistische modellen voor het verankeren van gestructureerde kennis
StructLM: Towards Building Generalist Models for Structured Knowledge Grounding

Feb 26

ByAlex Zhuang, Ge Zhang, Tianyu Zheng, Xinrun Du, Junjie Wang, Weiming Ren, Stephen W. Huang, Jie Fu, Xiang Yue, Wenhu Chen

Gestructureerde gegevensbronnen, zoals tabellen, grafieken en databases, zijn alomtegenwoordige kennisbronnen. Ondanks de bewezen capaciteiten van grote taalmodellen (LLM's) op gewone tekst, blijft hun vaardigheid in het interpreteren en benutten van gestructureerde gegevens beperkt. Ons onderzoek toont een opvallend tekort aan in het vermogen van LLM's om gestructureerde gegevens te verwerken, waarbij ChatGPT bijvoorbeeld gemiddeld 35% achterblijft bij state-of-the-art (SoTA) modellen. Om de Structured Knowledge Grounding (SKG)-capaciteiten in LLM's te vergroten, hebben we een uitgebreide instructieafstemmingsdataset ontwikkeld die 1,1 miljoen voorbeelden omvat. Met behulp van deze dataset trainen we een reeks modellen, genaamd StructLM, gebaseerd op de Code-LLaMA-architectuur, variërend van 7B tot 34B parameters. Onze StructLM-serie overtreft taakspecifieke modellen op 14 van de 18 geëvalueerde datasets en vestigt nieuwe SoTA-prestaties op 7 SKG-taken. Bovendien toont StructLM een uitzonderlijke generalisatie over 6 nieuwe SKG-taken. In tegenstelling tot verwachtingen, merken we op dat het opschalen van de modelgrootte slechts marginale voordelen biedt, waarbij StructLM-34B slechts kleine verbeteringen laat zien ten opzichte van StructLM-7B. Dit suggereert dat gestructureerde kennisverankering nog steeds een uitdagende taak is en dat er meer innovatief ontwerp nodig is om naar een hoger niveau te tillen.

Voeren Large Language Models latent multi-hop redeneren uit?
Do Large Language Models Latently Perform Multi-Hop Reasoning?

Feb 26

BySohee Yang, Elena Gribovskaya, Nora Kassner, Mor Geva, Sebastian Riedel

We onderzoeken of Large Language Models (LLMs) latent multi-hop redenering uitvoeren bij complexe prompts zoals "De moeder van de zanger van 'Superstition' is". We zoeken naar bewijs van een latent redeneerpad waarbij een LLM (1) latent identificeert dat "de zanger van 'Superstition'" Stevie Wonder is, de brugentiteit, en (2) zijn kennis over de moeder van Stevie Wonder gebruikt om de prompt te voltooien. We analyseren deze twee hops afzonderlijk en beschouwen hun gelijktijdige optreden als een indicatie van latent multi-hop redeneren. Voor de eerste hop testen we of het wijzigen van de prompt om indirect naar de brugentiteit te verwijzen in plaats van naar een andere entiteit, de interne herinnering van de LLM aan de brugentiteit verhoogt. Voor de tweede hop testen we of het vergroten van deze herinnering ervoor zorgt dat de LLM beter gebruikmaakt van wat hij weet over de brugentiteit. We vinden sterk bewijs van latent multi-hop redeneren voor prompts van bepaalde relatietypes, waarbij het redeneerpad in meer dan 80% van de prompts wordt gebruikt. Het gebruik is echter zeer contextafhankelijk en varieert tussen verschillende soorten prompts. Gemiddeld is het bewijs voor de tweede hop en de volledige multi-hop traversering eerder matig en alleen substantieel voor de eerste hop. Bovendien vinden we een duidelijke schaalbaarheidstrend met toenemende modelgrootte voor de eerste hop van het redeneren, maar niet voor de tweede hop. Onze experimentele bevindingen suggereren mogelijke uitdagingen en kansen voor toekomstige ontwikkeling en toepassingen van LLMs.

MobiLlama: Op Weg naar Nauwkeurige en Lichtgewicht Volledig Transparante GPT
MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT

Feb 26

ByOmkar Thawakar, Ashmal Vayani, Salman Khan, Hisham Cholakal, Rao M. Anwer, Michael Felsberg, Tim Baldwin, Eric P. Xing, Fahad Shahbaz Khan

"Groter is beter" is de dominante trend geweest in de recente ontwikkeling van Large Language Models (LLM's). LLM's zijn echter niet goed geschikt voor scenario's die on-device verwerking, energie-efficiëntie, een laag geheugengebruik en reactie-efficiëntie vereisen. Deze vereisten zijn cruciaal voor privacy, veiligheid en duurzame implementatie. Dit artikel verkent het "minder is meer"-paradigma door de uitdaging aan te gaan van het ontwerpen van nauwkeurige maar efficiënte Small Language Models (SLM's) voor apparaten met beperkte middelen. Onze belangrijkste bijdrage is de introductie van een nauwkeurig en volledig transparant open-source SLM met 0,5 miljard (0,5B) parameters, genaamd MobiLlama, dat specifiek is ontworpen voor de behoeften van rekenkrachtarme apparaten, met de nadruk op verbeterde prestaties met verminderde resource-eisen. MobiLlama is een SLM-ontwerp dat uitgaat van een groter model en een zorgvuldig parameterscheidingsschema toepast om zowel de pre-trainings- als de implementatiekosten te verlagen. Ons werk streeft ernaar om niet alleen de kloof in open-source SLM's te overbruggen, maar ook volledige transparantie te garanderen, waarbij de volledige trainingsdatapijplijn, trainingscode, modelgewichten en meer dan 300 checkpoints samen met evaluatiecodes beschikbaar zijn op: https://github.com/mbzuai-oryx/MobiLlama.

Naar Open-Einde Visuele Kwaliteitsvergelijking
Towards Open-ended Visual Quality Comparison

Feb 26

ByHaoning Wu, Hanwei Zhu, Zicheng Zhang, Erli Zhang, Chaofeng Chen, Liang Liao, Chunyi Li, Annan Wang, Wenxiu Sun, Qiong Yan, Xiaohong Liu, Guangtao Zhai, Shiqi Wang, Weisi Lin

Vergelijkende instellingen (bijvoorbeeld paarsgewijze keuze, lijstgewijze rangschikking) zijn door een breed scala aan subjectieve studies voor beeldkwaliteitsbeoordeling (IQA) overgenomen, omdat ze de evaluatiecriteria inherent standaardiseren over verschillende waarnemers heen en meer duidelijke antwoorden bieden. In dit werk breiden we de mogelijkheden van opkomende grote multimodale modellen (LMMs) uit om visuele kwaliteitsvergelijking verder te bevorderen naar open-ended instellingen, die 1) kunnen reageren op open-einde vragen over kwaliteitsvergelijking; 2) gedetailleerde redeneringen kunnen bieden naast directe antwoorden. Hiertoe stellen we de Co-Instruct voor. Om deze eerste open-source open-ended visuele kwaliteitsvergelijker te trainen, verzamelen we de Co-Instruct-562K dataset, uit twee bronnen: (a) LMM-geïntegreerde enkele beeldkwaliteitsbeschrijving, (b) GPT-4V "leraar" antwoorden op ongelabelde data. Verder stellen we, om deze instelling beter te evalueren, de MICBench voor, de eerste benchmark voor multi-beeldvergelijking voor LMMs. We tonen aan dat Co-Instruct niet alleen 30% hogere superieure nauwkeurigheid bereikt dan state-of-the-art open-source LMMs, maar ook GPT-4V (zijn leraar) overtreft, zowel op bestaande gerelateerde benchmarks als op de voorgestelde MICBench. Ons model is gepubliceerd op https://huggingface.co/q-future/co-instruct.

Rainbow Teaming: Open-Ended Generatie van Diverse Adversariële Prompts
Rainbow Teaming: Open-Ended Generation of Diverse Adversarial Prompts

Feb 26

ByMikayel Samvelyan, Sharath Chandra Raparthy, Andrei Lupu, Eric Hambro, Aram H. Markosyan, Manish Bhatt, Yuning Mao, Minqi Jiang, Jack Parker-Holder, Jakob Foerster, Tim Rocktäschel, Roberta Raileanu

Naarmate grote taalmodellen (LLMs) steeds vaker worden ingezet in veel real-world toepassingen, is het begrijpen en verbeteren van hun robuustheid tegenover gebruikersinvoer van cruciaal belang. Bestaande methoden voor het identificeren van adversariële prompts richten zich vaak op specifieke domeinen, missen diversiteit, of vereisen uitgebreide menselijke annotaties. Om deze beperkingen aan te pakken, presenteren we Rainbow Teaming, een nieuwe aanpak voor het genereren van een diverse verzameling adversariële prompts. Rainbow Teaming benadert de generatie van adversariële prompts als een kwaliteit-diversiteit probleem, en maakt gebruik van open-ended zoekmethoden om prompts te genereren die zowel effectief als divers zijn. Het kan kwetsbaarheden van een model blootleggen over een breed scala aan domeinen, waaronder in dit artikel veiligheid, vraagbeantwoording en cybersecurity. We laten ook zien dat fine-tuning op synthetische data gegenereerd door Rainbow Teaming de veiligheid van state-of-the-art LLMs verbetert zonder hun algemene mogelijkheden en behulpzaamheid aan te tasten, wat de weg vrijmaakt voor open-ended zelfverbetering.

MegaScale: Het Opschalen van Grote Taalmodeltraining naar Meer Dan 10.000 GPU's
MegaScale: Scaling Large Language Model Training to More Than 10,000 GPUs

Feb 23