Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Hoewel grote taalmmodellen (LLM's) indrukwekkende mogelijkheden demonstreren in tekstgeneratie, blijkt dat hun vermogen nog niet is gegeneraliseerd naar muziek, de creatieve taal van de mensheid. Wij introduceren ChatMusician, een open-source LLM dat intrinsieke muzikale vaardigheden integreert. Het is gebaseerd op voortdurende voorafgaande training en finetuning van LLaMA2 op een tekstcompatibele muziekrepresentatie, ABC-notatie, waarbij muziek wordt behandeld als een tweede taal. ChatMusician kan muziek begrijpen en genereren met een pure teksttokenizer, zonder externe multimodale neurale structuren of tokenizers. Interessant is dat het toekennen van muzikale vaardigheden de taalvaardigheden niet schaadt, en zelfs een iets hogere MMLU-score bereikt. Ons model is in staat om goed gestructureerde, volledige muziek te componeren, gebaseerd op teksten, akkoorden, melodieën, motieven, muzikale vormen, etc., en overtreft daarbij de GPT-4-baseline. Op ons zorgvuldig samengestelde, universitair niveau muziekbegrip benchmark, MusicTheoryBench, overtreft ChatMusician LLaMA2 en GPT-3.5 in een zero-shot setting met een aanzienlijke marge. Ons werk toont aan dat LLM's een uitstekende compressor voor muziek kunnen zijn, maar dat er nog aanzienlijk terrein te veroveren valt. We geven onze 4B token muziek-taalcorpora MusicPile, de verzamelde MusicTheoryBench, code, model en demo vrij op GitHub.
We introduceren Nemotron-4 15B, een groot meertalig taalmodel met 15 miljard parameters, getraind op 8 biljoen teksttokens. Nemotron-4 15B toont sterke prestaties bij evaluaties op Engels, meertalige en coderings taken: het overtreft alle bestaande open modellen van vergelijkbare grootte op 4 van de 7 downstream evaluatiegebieden en behaalt competitieve prestaties ten opzichte van de toonaangevende open modellen in de overige gebieden. Specifiek vertoont Nemotron-4 15B de beste meertalige capaciteiten van alle modellen van vergelijkbare grootte, waarbij het zelfs modellen overtreft die meer dan vier keer zo groot zijn en modellen die expliciet gespecialiseerd zijn in meertalige taken.
Hoewel het trainen van grote taalmodelen (LLMs) vanaf nul inderdaad kan leiden tot modellen met unieke capaciteiten en sterke punten, brengt deze aanpak aanzienlijke kosten met zich mee en kan het leiden tot potentiële redundantie in vaardigheden. Een alternatieve strategie is om bestaande LLMs te combineren tot een robuuster LLM, waardoor de noodzaak voor dure pre-training wordt verminderd. Echter, vanwege de diverse architecturen van LLMs blijkt directe parameterblending onhaalbaar. Recentelijk introduceerde FuseLLM het concept van kennisfusie om de collectieve kennis van meerdere structureel verschillende LLMs over te dragen naar een doel-LLM via lichtgewicht continue training. In dit rapport breiden we de schaalbaarheid en flexibiliteit van het FuseLLM-framework uit om de fusie van chat-LLMs te realiseren, wat resulteert in FuseChat. FuseChat bestaat uit twee hoofdstadia. Ten eerste ondernemen we kennisfusie voor structureel en schaalvariërende bron-LLMs om meerdere doel-LLMs van identieke structuur en grootte te verkrijgen via lichtgewicht fine-tuning. Vervolgens worden deze doel-LLMs samengevoegd binnen de parameterruimte, waarbij we een nieuwe methode voorstellen om de samenvoegingsgewichten te bepalen op basis van de variatieratio van parametermatrices voor en na fine-tuning. We valideren onze aanpak met drie prominente chat-LLMs met diverse architecturen en schalen, namelijk NH2-Mixtral-8x7B, NH2-Solar-10.7B en OpenChat-3.5-7B. Experimentele resultaten over verschillende chatdomeinen tonen de superioriteit van \textsc{FuseChat-7B} aan over een breed spectrum van chat-LLMs op 7B en 34B schalen, waarbij het zelfs GPT-3.5 (maart) overtreft en Mixtral-8x7B-Instruct benadert. Onze code, modelgewichten en data zijn openbaar toegankelijk op https://github.com/fanqiwan/FuseLLM.
We presenteren het ontwerp, de implementatie en de technische ervaring bij het bouwen en inzetten van MegaScale, een productiesysteem voor het trainen van grote taalmodel(len) (LLM's) op een schaal van meer dan 10.000 GPU's. Het trainen van LLM's op deze schaal brengt ongekende uitdagingen met zich mee op het gebied van trainings efficiëntie en stabiliteit. We hanteren een full-stack benadering waarbij de algoritmische en systeemcomponenten gezamenlijk worden ontworpen, inclusief het ontwerp van modelblokken en optimalisatoren, overlapping van berekeningen en communicatie, optimalisatie van operatoren, de datapijplijn en afstemming van netwerkprestaties. Het behouden van een hoge efficiëntie gedurende het hele trainingsproces (d.w.z. stabiliteit) is een belangrijk aandachtspunt in productie, gezien de lange duur van LLM-trainingsjobs. Veel hardnekkige stabiliteitsproblemen komen pas op grote schaal naar voren, en diepgaande observeerbaarheid is de sleutel om deze aan te pakken. We hebben een set diagnostische tools ontwikkeld om systeemcomponenten en gebeurtenissen diep in de stack te monitoren, grondoorzaken te identificeren en effectieve technieken af te leiden om fouttolerantie te bereiken en achterblijvers te verminderen. MegaScale behaalt een Model FLOPs Utilisation (MFU) van 55,2% bij het trainen van een LLM-model van 175B op 12.288 GPU's, wat de MFU met 1,34x verbetert in vergelijking met Megatron-LM. We delen onze operationele ervaringen bij het identificeren en oplossen van fouten en achterblijvers. We hopen dat door het articuleren van de problemen en het delen van onze ervaring vanuit een systeemperspectief, dit werk toekomstig onderzoek naar LLM-systemen kan inspireren.
Low-Rank Adaptation (LoRA) wordt uitgebreid gebruikt in tekst-naar-beeldmodellen voor de nauwkeurige weergave van specifieke elementen zoals onderscheidende personages of unieke stijlen in gegenereerde afbeeldingen. Desalniettemin hebben bestaande methoden moeite met het effectief combineren van meerdere LoRA's, vooral wanneer het aantal te integreren LoRA's toeneemt, wat de creatie van complexe beelden belemmert. In dit artikel bestuderen we multi-LoRA-compositie vanuit een decoderingsgericht perspectief. We presenteren twee trainingsvrije methoden: LoRA Switch, die afwisselt tussen verschillende LoRA's bij elke denoisingstap, en LoRA Composite, die alle LoRA's gelijktijdig incorporeert om een meer samenhangende beeld synthese te begeleiden. Om de voorgestelde benaderingen te evalueren, hebben we ComposLoRA opgezet, een nieuwe uitgebreide testomgeving als onderdeel van dit onderzoek. Deze omvat een diverse reeks LoRA-categorieën met 480 compositiesets. Door gebruik te maken van een evaluatieraamwerk gebaseerd op GPT-4V, tonen onze bevindingen een duidelijke verbetering in prestaties met onze methoden ten opzichte van de gangbare baseline, wat vooral duidelijk wordt bij het verhogen van het aantal LoRA's in een compositie.
Gestructureerde gegevensbronnen, zoals tabellen, grafieken en databases, zijn alomtegenwoordige kennisbronnen. Ondanks de bewezen capaciteiten van grote taalmodellen (LLM's) op gewone tekst, blijft hun vaardigheid in het interpreteren en benutten van gestructureerde gegevens beperkt. Ons onderzoek toont een opvallend tekort aan in het vermogen van LLM's om gestructureerde gegevens te verwerken, waarbij ChatGPT bijvoorbeeld gemiddeld 35% achterblijft bij state-of-the-art (SoTA) modellen. Om de Structured Knowledge Grounding (SKG)-capaciteiten in LLM's te vergroten, hebben we een uitgebreide instructieafstemmingsdataset ontwikkeld die 1,1 miljoen voorbeelden omvat. Met behulp van deze dataset trainen we een reeks modellen, genaamd StructLM, gebaseerd op de Code-LLaMA-architectuur, variërend van 7B tot 34B parameters. Onze StructLM-serie overtreft taakspecifieke modellen op 14 van de 18 geëvalueerde datasets en vestigt nieuwe SoTA-prestaties op 7 SKG-taken. Bovendien toont StructLM een uitzonderlijke generalisatie over 6 nieuwe SKG-taken. In tegenstelling tot verwachtingen, merken we op dat het opschalen van de modelgrootte slechts marginale voordelen biedt, waarbij StructLM-34B slechts kleine verbeteringen laat zien ten opzichte van StructLM-7B. Dit suggereert dat gestructureerde kennisverankering nog steeds een uitdagende taak is en dat er meer innovatief ontwerp nodig is om naar een hoger niveau te tillen.
We onderzoeken of Large Language Models (LLMs) latent multi-hop redenering uitvoeren bij complexe prompts zoals "De moeder van de zanger van 'Superstition' is". We zoeken naar bewijs van een latent redeneerpad waarbij een LLM (1) latent identificeert dat "de zanger van 'Superstition'" Stevie Wonder is, de brugentiteit, en (2) zijn kennis over de moeder van Stevie Wonder gebruikt om de prompt te voltooien. We analyseren deze twee hops afzonderlijk en beschouwen hun gelijktijdige optreden als een indicatie van latent multi-hop redeneren. Voor de eerste hop testen we of het wijzigen van de prompt om indirect naar de brugentiteit te verwijzen in plaats van naar een andere entiteit, de interne herinnering van de LLM aan de brugentiteit verhoogt. Voor de tweede hop testen we of het vergroten van deze herinnering ervoor zorgt dat de LLM beter gebruikmaakt van wat hij weet over de brugentiteit. We vinden sterk bewijs van latent multi-hop redeneren voor prompts van bepaalde relatietypes, waarbij het redeneerpad in meer dan 80% van de prompts wordt gebruikt. Het gebruik is echter zeer contextafhankelijk en varieert tussen verschillende soorten prompts. Gemiddeld is het bewijs voor de tweede hop en de volledige multi-hop traversering eerder matig en alleen substantieel voor de eerste hop. Bovendien vinden we een duidelijke schaalbaarheidstrend met toenemende modelgrootte voor de eerste hop van het redeneren, maar niet voor de tweede hop. Onze experimentele bevindingen suggereren mogelijke uitdagingen en kansen voor toekomstige ontwikkeling en toepassingen van LLMs.
"Groter is beter" is de dominante trend geweest in de recente ontwikkeling van Large Language Models (LLM's). LLM's zijn echter niet goed geschikt voor scenario's die on-device verwerking, energie-efficiëntie, een laag geheugengebruik en reactie-efficiëntie vereisen. Deze vereisten zijn cruciaal voor privacy, veiligheid en duurzame implementatie. Dit artikel verkent het "minder is meer"-paradigma door de uitdaging aan te gaan van het ontwerpen van nauwkeurige maar efficiënte Small Language Models (SLM's) voor apparaten met beperkte middelen. Onze belangrijkste bijdrage is de introductie van een nauwkeurig en volledig transparant open-source SLM met 0,5 miljard (0,5B) parameters, genaamd MobiLlama, dat specifiek is ontworpen voor de behoeften van rekenkrachtarme apparaten, met de nadruk op verbeterde prestaties met verminderde resource-eisen. MobiLlama is een SLM-ontwerp dat uitgaat van een groter model en een zorgvuldig parameterscheidingsschema toepast om zowel de pre-trainings- als de implementatiekosten te verlagen. Ons werk streeft ernaar om niet alleen de kloof in open-source SLM's te overbruggen, maar ook volledige transparantie te garanderen, waarbij de volledige trainingsdatapijplijn, trainingscode, modelgewichten en meer dan 300 checkpoints samen met evaluatiecodes beschikbaar zijn op: https://github.com/mbzuai-oryx/MobiLlama.
Vergelijkende instellingen (bijvoorbeeld paarsgewijze keuze, lijstgewijze rangschikking) zijn door een breed scala aan subjectieve studies voor beeldkwaliteitsbeoordeling (IQA) overgenomen, omdat ze de evaluatiecriteria inherent standaardiseren over verschillende waarnemers heen en meer duidelijke antwoorden bieden. In dit werk breiden we de mogelijkheden van opkomende grote multimodale modellen (LMMs) uit om visuele kwaliteitsvergelijking verder te bevorderen naar open-ended instellingen, die 1) kunnen reageren op open-einde vragen over kwaliteitsvergelijking; 2) gedetailleerde redeneringen kunnen bieden naast directe antwoorden. Hiertoe stellen we de Co-Instruct voor. Om deze eerste open-source open-ended visuele kwaliteitsvergelijker te trainen, verzamelen we de Co-Instruct-562K dataset, uit twee bronnen: (a) LMM-geïntegreerde enkele beeldkwaliteitsbeschrijving, (b) GPT-4V "leraar" antwoorden op ongelabelde data. Verder stellen we, om deze instelling beter te evalueren, de MICBench voor, de eerste benchmark voor multi-beeldvergelijking voor LMMs. We tonen aan dat Co-Instruct niet alleen 30% hogere superieure nauwkeurigheid bereikt dan state-of-the-art open-source LMMs, maar ook GPT-4V (zijn leraar) overtreft, zowel op bestaande gerelateerde benchmarks als op de voorgestelde MICBench. Ons model is gepubliceerd op https://huggingface.co/q-future/co-instruct.
Naarmate grote taalmodellen (LLMs) steeds vaker worden ingezet in veel real-world toepassingen, is het begrijpen en verbeteren van hun robuustheid tegenover gebruikersinvoer van cruciaal belang. Bestaande methoden voor het identificeren van adversariële prompts richten zich vaak op specifieke domeinen, missen diversiteit, of vereisen uitgebreide menselijke annotaties. Om deze beperkingen aan te pakken, presenteren we Rainbow Teaming, een nieuwe aanpak voor het genereren van een diverse verzameling adversariële prompts. Rainbow Teaming benadert de generatie van adversariële prompts als een kwaliteit-diversiteit probleem, en maakt gebruik van open-ended zoekmethoden om prompts te genereren die zowel effectief als divers zijn. Het kan kwetsbaarheden van een model blootleggen over een breed scala aan domeinen, waaronder in dit artikel veiligheid, vraagbeantwoording en cybersecurity. We laten ook zien dat fine-tuning op synthetische data gegenereerd door Rainbow Teaming de veiligheid van state-of-the-art LLMs verbetert zonder hun algemene mogelijkheden en behulpzaamheid aan te tasten, wat de weg vrijmaakt voor open-ended zelfverbetering.