Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Während Large Language Models (LLMs) beeindruckende Fähigkeiten in der Textgenerierung demonstrieren, stellen wir fest, dass ihre Fähigkeiten noch nicht auf Musik, die kreative Sprache der Menschheit, verallgemeinert werden konnten. Wir stellen ChatMusician vor, ein Open-Source-LLM, das intrinsische musikalische Fähigkeiten integriert. Es basiert auf kontinuierlichem Pre-Training und Fine-Tuning von LLaMA2 auf einer textkompatiblen Musikdarstellung, der ABC-Notation, wobei Musik als zweite Sprache behandelt wird. ChatMusician kann Musik verstehen und generieren, indem es einen reinen Text-Tokenizer verwendet, ohne externe multimodale neuronale Strukturen oder Tokenizer. Interessanterweise beeinträchtigt die Verleihung musikalischer Fähigkeiten nicht die Sprachfähigkeiten, sondern erzielt sogar einen leicht höheren MMLU-Score. Unser Modell ist in der Lage, gut strukturierte, vollständige Musikstücke zu komponieren, die auf Texten, Akkorden, Melodien, Motiven, musikalischen Formen usw. basieren, und übertrifft dabei die GPT-4-Baseline. Auf unserem sorgfältig kuratierten Benchmark für das Musikverständnis auf College-Niveau, dem MusicTheoryBench, übertrifft ChatMusician LLaMA2 und GPT-3.5 im Zero-Shot-Setting deutlich. Unsere Arbeit zeigt, dass LLMs ein hervorragender Kompressor für Musik sein können, aber es gibt noch erhebliche Gebiete zu erobern. Wir veröffentlichen unser 4B-Token-Musik-Sprach-Korpus MusicPile, den gesammelten MusicTheoryBench, Code, Modell und Demo auf GitHub.
Wir stellen Nemotron-4 15B vor, ein großes multilinguales Sprachmodell mit 15 Milliarden Parametern, das auf 8 Billionen Text-Tokens trainiert wurde. Nemotron-4 15B zeigt eine starke Leistung bei der Bewertung von englischen, multilingualen und Programmieraufgaben: Es übertrifft alle bestehenden Open-Modelle ähnlicher Größe in 4 von 7 nachgelagerten Evaluierungsbereichen und erreicht in den verbleibenden Bereichen eine wettbewerbsfähige Leistung im Vergleich zu den führenden Open-Modellen. Insbesondere weist Nemotron-4 15B die besten multilingualen Fähigkeiten aller Modelle ähnlicher Größe auf und übertrifft sogar Modelle, die mehr als viermal so groß sind und explizit für multilinguale Aufgaben spezialisiert wurden.
Während das Training großer Sprachmodelle (LLMs) von Grund auf tatsächlich zu Modellen mit einzigartigen Fähigkeiten und Stärken führen kann, ist dieser Ansatz mit erheblichen Kosten verbunden und kann zu potenzieller Redundanz in den Kompetenzen führen. Eine alternative Strategie besteht darin, bestehende LLMs zu einem robusteren LLM zu kombinieren, wodurch die Notwendigkeit für teures Pre-Training verringert wird. Aufgrund der unterschiedlichen Architekturen von LLMs erweist sich jedoch eine direkte Parametervermischung als undurchführbar. Kürzlich hat FuseLLM das Konzept der Wissensfusion eingeführt, um das kollektive Wissen mehrerer strukturell unterschiedlicher LLMs durch leichtgewichtiges kontinuierliches Training in ein Ziel-LLM zu übertragen. In diesem Bericht erweitern wir die Skalierbarkeit und Flexibilität des FuseLLM-Frameworks, um die Fusion von Chat-LLMs zu realisieren, was zu FuseChat führt. FuseChat besteht aus zwei Hauptphasen. Zunächst führen wir eine Wissensfusion für strukturell und skalenmäßig unterschiedliche Quell-LLMs durch, um mehrere Ziel-LLMs mit identischer Struktur und Größe durch leichtgewichtiges Fine-Tuning zu erhalten. Anschließend werden diese Ziel-LLMs im Parameterraum zusammengeführt, wobei wir eine neuartige Methode zur Bestimmung der Gewichtung der Zusammenführung basierend auf dem Variationsverhältnis der Parametermatrizen vor und nach dem Fine-Tuning vorschlagen. Wir validieren unseren Ansatz mit drei prominenten Chat-LLMs mit unterschiedlichen Architekturen und Skalen, nämlich NH2-Mixtral-8x7B, NH2-Solar-10.7B und OpenChat-3.5-7B. Experimentelle Ergebnisse über verschiedene Chat-Domänen hinweg demonstrieren die Überlegenheit von \textsc{FuseChat-7B} im Vergleich zu einer breiten Palette von Chat-LLMs in den Skalen 7B und 34B, wobei es sogar GPT-3.5 (März) übertrifft und sich Mixtral-8x7B-Instruct annähert. Unser Code, Modellgewichte und Daten sind öffentlich zugänglich unter https://github.com/fanqiwan/FuseLLM.
Wir präsentieren das Design, die Implementierung und die technischen Erfahrungen beim Aufbau und Einsatz von MegaScale, einem Produktionssystem für das Training großer Sprachmodelle (LLMs) im Maßstab von mehr als 10.000 GPUs. Das Training von LLMs in dieser Größenordnung stellt beispiellose Herausforderungen an die Effizienz und Stabilität des Trainings dar. Wir verfolgen einen Full-Stack-Ansatz, der die algorithmischen und systemtechnischen Komponenten über das Modellblock- und Optimiererdesign, die Überlappung von Berechnung und Kommunikation, die Optimierung von Operatoren, die Datenpipeline und die Netzwerkleistungsoptimierung hinweg gemeinsam gestaltet. Die Aufrechterhaltung einer hohen Effizienz während des gesamten Trainingsprozesses (d.h. Stabilität) ist eine wichtige Überlegung in der Produktion, angesichts der langen Dauer von LLM-Trainingsjobs. Viele schwerwiegende Stabilitätsprobleme treten erst in großem Maßstab auf, und eine tiefgehende Beobachtbarkeit ist der Schlüssel zu ihrer Lösung. Wir entwickeln eine Reihe von Diagnosewerkzeugen, um Systemkomponenten und Ereignisse tief im Stack zu überwachen, Ursachen zu identifizieren und effektive Techniken zur Fehlertoleranz und zur Minderung von Nachzüglern abzuleiten. MegaScale erreicht eine Model FLOPs Utilization (MFU) von 55,2 % beim Training eines 175B LLM-Modells auf 12.288 GPUs, was die MFU im Vergleich zu Megatron-LM um das 1,34-fache verbessert. Wir teilen unsere Betriebserfahrungen bei der Identifizierung und Behebung von Ausfällen und Nachzüglern. Wir hoffen, dass diese Arbeit durch die Artikulation der Probleme und die Weitergabe unserer Erfahrungen aus einer Systemperspektive zukünftige Forschungen zu LLM-Systemen inspirieren kann.
Low-Rank Adaptation (LoRA) wird umfassend in Text-zu-Bild-Modellen eingesetzt, um spezifische Elemente wie bestimmte Charaktere oder einzigartige Stile in generierten Bildern präzise darzustellen. Dennoch stehen bestehende Methoden vor Herausforderungen, wenn es darum geht, mehrere LoRAs effektiv zu kombinieren, insbesondere wenn die Anzahl der zu integrierenden LoRAs steigt, was die Erstellung komplexer Bilder erschwert. In dieser Arbeit untersuchen wir die Multi-LoRA-Komposition aus einer dekodierungszentrierten Perspektive. Wir stellen zwei trainingsfreie Methoden vor: LoRA Switch, das zwischen verschiedenen LoRAs bei jedem Denoising-Schritt wechselt, und LoRA Composite, das alle LoRAs gleichzeitig einbezieht, um eine kohärentere Bildsynthese zu ermöglichen. Um die vorgeschlagenen Ansätze zu bewerten, haben wir ComposLoRA, eine neue umfassende Testumgebung, als Teil dieser Forschung etabliert. Sie umfasst eine Vielzahl von LoRA-Kategorien mit 480 Kompositionssätzen. Unter Verwendung eines auf GPT-4V basierenden Bewertungsrahmens zeigen unsere Ergebnisse eine deutliche Leistungssteigerung mit unseren Methoden im Vergleich zum verbreiteten Baseline-Modell, was besonders deutlich wird, wenn die Anzahl der LoRAs in einer Komposition erhöht wird.
Wir untersuchen, ob Large Language Models (LLMs) latent mehrstufiges Schlussfolgern mit komplexen Eingabeaufforderungen wie „Die Mutter des Sängers von ‚Superstition‘ ist“ durchführen. Wir suchen nach Hinweisen auf einen latenten Schlussfolgerungspfad, bei dem ein LLM (1) latent „den Sänger von ‚Superstition‘“ als Stevie Wonder, die Brückenentität, identifiziert und (2) sein Wissen über Stevie Wonders Mutter nutzt, um die Eingabeaufforderung zu vervollständigen. Wir analysieren diese beiden Schritte einzeln und betrachten ihr gemeinsames Auftreten als Indikator für latentes mehrstufiges Schlussfolgern. Für den ersten Schritt testen wir, ob eine Änderung der Eingabeaufforderung, um die Brückenentität indirekt zu erwähnen, anstatt einer anderen Entität, die interne Erinnerung des LLMs an die Brückenentität erhöht. Für den zweiten Schritt testen wir, ob eine Steigerung dieser Erinnerung dazu führt, dass das LLM besser nutzt, was es über die Brückenentität weiß. Wir finden starke Hinweise auf latentes mehrstufiges Schlussfolgern bei Eingabeaufforderungen bestimmter Relationstypen, wobei der Schlussfolgerungspfad in mehr als 80 % der Eingabeaufforderungen verwendet wird. Die Nutzung ist jedoch stark kontextabhängig und variiert bei verschiedenen Arten von Eingabeaufforderungen. Im Durchschnitt sind die Hinweise für den zweiten Schritt und die vollständige mehrstufige Durchquerung eher moderat und nur für den ersten Schritt substanziell. Darüber hinaus finden wir einen klaren Skalierungstrend mit zunehmender Modellgröße für den ersten Schritt des Schlussfolgerns, jedoch nicht für den zweiten Schritt. Unsere experimentellen Ergebnisse deuten auf potenzielle Herausforderungen und Chancen für die zukünftige Entwicklung und Anwendung von LLMs hin.
Strukturierte Datenquellen wie Tabellen, Graphen und Datenbanken sind allgegenwärtige Wissensquellen. Trotz der nachgewiesenen Fähigkeiten großer Sprachmodelle (LLMs) im Umgang mit Klartext bleibt ihre Kompetenz bei der Interpretation und Nutzung strukturierter Daten begrenzt. Unsere Untersuchung zeigt eine bemerkenswerte Schwäche von LLMs bei der Verarbeitung strukturierter Daten; beispielsweise liegt ChatGPT im Durchschnitt 35 % hinter dem State-of-the-Art (SoTA)-Modell zurück. Um die Fähigkeiten von LLMs zur strukturierten Wissensverankerung (Structured Knowledge Grounding, SKG) zu verbessern, haben wir einen umfassenden Instruktions-Tuning-Datensatz mit 1,1 Millionen Beispielen entwickelt. Mit diesem Datensatz trainieren wir eine Reihe von Modellen, die als StructLM bezeichnet werden und auf der Code-LLaMA-Architektur basieren, mit Parametergrößen von 7B bis 34B. Unsere StructLM-Serie übertrifft aufgabenbezogene Modelle bei 14 von 18 evaluierten Datensätzen und setzt neue SoTA-Benchmarks bei 7 SKG-Aufgaben. Darüber hinaus zeigt StructLM eine außergewöhnliche Generalisierungsfähigkeit bei 6 neuartigen SKG-Aufgaben. Entgegen den Erwartungen stellen wir fest, dass die Skalierung der Modellgröße nur marginale Vorteile bietet, wobei StructLM-34B nur geringfügige Verbesserungen gegenüber StructLM-7B aufweist. Dies deutet darauf hin, dass die strukturierte Wissensverankerung nach wie vor eine anspruchsvolle Aufgabe ist und innovativere Ansätze erfordert, um auf ein neues Niveau gehoben zu werden.
"Größer ist besser" war der vorherrschende Trend in der jüngsten Entwicklung von Large Language Models (LLMs). Allerdings eignen sich LLMs nicht gut für Szenarien, die On-Device-Verarbeitung, Energieeffizienz, einen geringen Speicherbedarf und schnelle Antwortzeiten erfordern. Diese Anforderungen sind entscheidend für Datenschutz, Sicherheit und eine nachhaltige Bereitstellung. Dieses Papier untersucht das Paradigma "Weniger ist mehr", indem es die Herausforderung angeht, präzise und dennoch effiziente Small Language Models (SLMs) für ressourcenbeschränkte Geräte zu entwerfen. Unser Hauptbeitrag ist die Einführung eines präzisen und vollständig transparenten Open-Source-SLMs mit 0,5 Milliarden (0,5B) Parametern, genannt MobiLlama, das auf die spezifischen Anforderungen des ressourcenbeschränkten Rechnens zugeschnitten ist und eine verbesserte Leistung bei reduziertem Ressourcenbedarf bietet. MobiLlama ist ein SLM-Design, das von einem größeren Modell ausgeht und ein sorgfältiges Parameter-Sharing-Schema anwendet, um sowohl die Vorabschulungskosten als auch die Bereitstellungskosten zu reduzieren. Unsere Arbeit zielt darauf ab, nicht nur die Lücke bei Open-Source-SLMs zu schließen, sondern auch vollständige Transparenz zu gewährleisten, wobei der vollständige Trainingsdatenpipeline, Trainingscode, Modellgewichte und über 300 Checkpoints zusammen mit Evaluierungscodes unter folgendem Link verfügbar sind: https://github.com/mbzuai-oryx/MobiLlama.
Vergleichende Einstellungen (z. B. paarweise Auswahl, listenweise Rangfolge) wurden in einer Vielzahl subjektiver Studien zur Bildqualitätsbewertung (IQA) übernommen, da sie die Bewertungskriterien über verschiedene Beobachter hinweg standardisieren und klarere Antworten liefern. In dieser Arbeit erweitern wir die Möglichkeiten aufstrebender großer multimodaler Modelle (LMMs), um den visuellen Qualitätsvergleich in offene Einstellungen voranzutreiben, die 1) auf offene Fragen zum Qualitätsvergleich reagieren können und 2) detaillierte Begründungen über direkte Antworten hinaus liefern können. Zu diesem Zweck schlagen wir das Co-Instruct vor. Um diesen erstmaligen Open-Source-Qualitätsvergleicher für offene Einstellungen zu trainieren, sammeln wir den Co-Instruct-562K-Datensatz aus zwei Quellen: (a) LMM-zusammengeführte Einzelbildqualitätsbeschreibungen und (b) GPT-4V-"Lehrer"-Antworten auf unmarkierte Daten. Darüber hinaus schlagen wir zur besseren Bewertung dieser Einstellung den MICBench vor, den ersten Benchmark für den Vergleich mehrerer Bilder für LMMs. Wir zeigen, dass Co-Instruct nicht nur eine 30 % höhere Genauigkeit als state-of-the-art Open-Source-LMMs erreicht, sondern auch GPT-4V (seinen Lehrer) sowohl auf bestehenden verwandten Benchmarks als auch auf dem vorgeschlagenen MICBench übertrifft. Unser Modell ist unter https://huggingface.co/q-future/co-instruct veröffentlicht.
Da große Sprachmodelle (LLMs) in immer mehr realen Anwendungen verbreitet sind, ist das Verständnis und die Verbesserung ihrer Robustheit gegenüber Benutzereingaben von entscheidender Bedeutung. Bestehende Methoden zur Identifizierung von adversarischen Prompts konzentrieren sich oft auf spezifische Domänen, mangeln an Diversität oder erfordern umfangreiche menschliche Annotationen. Um diese Einschränkungen zu überwinden, stellen wir Rainbow Teaming vor, einen neuartigen Ansatz zur Erzeugung einer vielfältigen Sammlung von adversarischen Prompts. Rainbow Teaming betrachtet die Generierung von adversarischen Prompts als ein Qualitäts-Diversitäts-Problem und nutzt eine offene Suche, um Prompts zu erzeugen, die sowohl effektiv als auch divers sind. Es kann Schwachstellen eines Modells in einer breiten Palette von Domänen aufdecken, darunter in dieser Arbeit Sicherheit, Fragebeantwortung und Cybersicherheit. Wir zeigen außerdem, dass das Feinabstimmen auf synthetischen Daten, die von Rainbow Teaming generiert wurden, die Sicherheit von state-of-the-art LLMs verbessert, ohne deren allgemeine Fähigkeiten und Hilfsbereitschaft zu beeinträchtigen, und ebnet so den Weg für eine offene Selbstverbesserung.