Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die treibenden Faktoren hinter der Entwicklung von großen Sprachmodellen (LLMs) mit beeindruckenden Lernfähigkeiten sind ihre enormen Modellgrößen und umfangreichen Trainingsdatensätze. Parallel zum Fortschritt in der natürlichen Sprachverarbeitung wurden LLMs häufig der Öffentlichkeit zugänglich gemacht, um tiefgehende Untersuchungen und Anwendungen zu fördern. Wenn es jedoch um die Trainingsdatensätze für diese LLMs geht, insbesondere für die neuesten State-of-the-Art-Modelle, werden diese oft nicht vollständig offengelegt. Die Erstellung von Trainingsdaten für hochleistungsfähige LLMs erfordert umfangreiche Bereinigungs- und Deduplizierungsprozesse, um die notwendige Qualität sicherzustellen. Der Mangel an Transparenz bei den Trainingsdaten hat somit die Forschung zur Zuschreibung und Behebung von Halluzinations- und Verzerrungsproblemen in LLMs behindert, was die Reproduktionsbemühungen und weiteren Fortschritte in der Gemeinschaft erschwert. Diese Herausforderungen werden in mehrsprachigen Lernszenarien noch deutlicher, wo die verfügbaren mehrsprachigen Textdatensätze oft unzureichend gesammelt und bereinigt sind. Folglich mangelt es an Open-Source-Datensätzen, die sofort einsatzbereit sind, um LLMs effektiv in mehreren Sprachen zu trainieren. Um dieses Problem zu überwinden, präsentieren wir CulturaX, einen umfangreichen mehrsprachigen Datensatz mit 6,3 Billionen Tokens in 167 Sprachen, der speziell für die Entwicklung von LLMs konzipiert ist. Unser Datensatz durchläuft eine sorgfältige Bereinigung und Deduplizierung durch eine rigorose Pipeline mit mehreren Stufen, um die beste Qualität für das Modelltraining zu erreichen, einschließlich Sprachidentifikation, URL-basierter Filterung, metrikbasierter Bereinigung, Dokumentenverfeinerung und Datendeduplizierung. CulturaX wird vollständig auf HuggingFace der Öffentlichkeit zugänglich gemacht, um die Forschung und Fortschritte in mehrsprachigen LLMs zu fördern: https://huggingface.co/datasets/uonlp/CulturaX.
Wir untersuchen, wie fortgesetztes Pre-Training auf domänenspezifischen Korpora große Sprachmodelle beeinflusst, und zeigen, dass das Training auf den Rohkorpora dem Modell Domänenwissen vermittelt, aber dessen Fähigkeit zur Beantwortung von Fragen durch Prompting drastisch beeinträchtigt. Inspiriert vom menschlichen Lernen durch Leseverständnis – Übungen nach dem Lesen verbessern die Fähigkeit, Fragen basierend auf dem erlernten Wissen zu beantworten – schlagen wir eine einfache Methode vor, um Rohkorpora in Leseverständnistexte umzuwandeln. Jeder Rohtext wird mit einer Reihe von Aufgaben angereichert, die sich auf seinen Inhalt beziehen. Unsere Methode, die hochskalierbar und auf jedes Pre-Training-Korpus anwendbar ist, verbessert durchgängig die Leistung bei verschiedenen Aufgaben in drei unterschiedlichen Domänen: Biomedizin, Finanzen und Recht. Bemerkenswerterweise erreicht unser 7B-Sprachmodell eine wettbewerbsfähige Leistung im Vergleich zu domänenspezifischen Modellen mit viel größerem Umfang, wie beispielsweise BloombergGPT-50B. Darüber hinaus zeigen wir, dass domänenspezifische Leseverständnistexte die Leistung des Modells sogar auf allgemeinen Benchmarks verbessern können, was das Potenzial aufzeigt, ein allgemeines Modell über noch mehr Domänen hinweg zu entwickeln. Unser Modell, Code und Daten werden unter https://github.com/microsoft/LMOps verfügbar sein.
Große Sprachmodelle (LLMs) haben Schwierigkeiten bei der Beantwortung von Fragen zu Dokumenten (QA), insbesondere wenn das Dokument nicht in den begrenzten Kontextumfang eines LLMs passt. Um dieses Problem zu überwinden, konzentrieren sich die meisten bestehenden Arbeiten darauf, den relevanten Kontext aus dem Dokument abzurufen und ihn als einfachen Text darzustellen. Dokumente wie PDFs, Webseiten und Präsentationen sind jedoch von Natur aus strukturiert, mit verschiedenen Seiten, Tabellen, Abschnitten und so weiter. Die Darstellung solcher strukturierten Dokumente als einfacher Text steht im Widerspruch zum mentalen Modell der Benutzer, die diese Dokumente mit ihrer reichen Struktur wahrnehmen. Wenn ein System den Kontext aus dem Dokument abfragen muss, wird dieser Widerspruch deutlich, und scheinbar triviale Fragen können das QA-System zum Scheitern bringen. Um diese grundlegende Lücke bei der Handhabung strukturierter Dokumente zu schließen, schlagen wir einen Ansatz namens PDFTriage vor, der es Modellen ermöglicht, den Kontext basierend auf Struktur oder Inhalt abzurufen. Unsere Experimente zeigen die Wirksamkeit der vorgeschlagenen PDFTriage-erweiterten Modelle bei mehreren Klassen von Fragen, bei denen bestehende retrieval-augmentierte LLMs scheitern. Um die weitere Forschung zu diesem grundlegenden Problem zu fördern, veröffentlichen wir unseren Benchmark-Datensatz, der aus über 900 von Menschen generierten Fragen zu 80 strukturierten Dokumenten aus 10 verschiedenen Kategorien von Fragentypen für die Dokument-QA besteht.
Dieses Papier präsentiert eine umfassende Übersicht über die Taxonomie und Entwicklung von multimodalen Foundation-Modellen, die visuelle und visuell-sprachliche Fähigkeiten demonstrieren, mit einem Fokus auf den Übergang von spezialisierten Modellen zu allgemeinen Assistenzsystemen. Die Forschungslandschaft umfasst fünf Kernthemen, die in zwei Klassen unterteilt sind. (i) Wir beginnen mit einer Übersicht über etablierte Forschungsbereiche: multimodale Foundation-Modelle, die für spezifische Zwecke vortrainiert wurden, einschließlich zweier Themen – Methoden zum Erlernen von visuellen Backbones für das visuelle Verständnis und die Text-zu-Bild-Generierung. (ii) Anschließend präsentieren wir aktuelle Fortschritte in explorativen, offenen Forschungsbereichen: multimodale Foundation-Modelle, die die Rolle von allgemeinen Assistenzsystemen anstreben, einschließlich dreier Themen – vereinheitlichte visuelle Modelle, die von großen Sprachmodellen (LLMs) inspiriert sind, End-to-End-Training von multimodalen LLMs und die Verkettung von multimodalen Werkzeugen mit LLMs. Die Zielgruppen des Papiers sind Forscher, Doktoranden und Fachleute in den Bereichen Computer Vision und visuell-sprachliche multimodale Systeme, die die Grundlagen und aktuellen Fortschritte in multimodalen Foundation-Modellen erlernen möchten.
Wir zeigen, dass Contrastive Decoding – eine einfache, recheneffiziente und trainingsfreie Methode zur Textgenerierung, die von Li et al. 2022 vorgeschlagen wurde – erhebliche Verbesserungen gegenüber dem Greedy-Decoding bei einer Vielzahl von Denkaufgaben erzielt. Ursprünglich wurde gezeigt, dass Contrastive Decoding die wahrgenommene Qualität der langfristigen Textgenerierung verbessert, indem es nach Zeichenfolgen sucht, die eine gewichtete Differenz in der Wahrscheinlichkeit zwischen starken und schwachen Modellen maximieren. Wir zeigen, dass Contrastive Decoding LLaMA-65B dazu befähigt, LLaMA 2, GPT-3.5 und PaLM 2-L auf dem HellaSwag-Benchmark für gesunden Menschenverstand zu übertreffen, und LLaMA 2, GPT-3.5 und PaLM-540B auf dem GSM8K-Benchmark für mathematische Textaufgaben zu übertreffen, zusätzlich zu Verbesserungen bei einer Sammlung anderer Aufgaben. Analysen deuten darauf hin, dass Contrastive Decoding bestehende Methoden verbessert, indem es einige abstrakte Denkfehler verhindert sowie einfachere Modi wie das Kopieren von Abschnitten der Eingabe während der Gedankenkette vermeidet. Insgesamt übertrifft Contrastive Decoding die Nukleus-Sampling-Methode bei der langfristigen Generierung und das Greedy-Decoding bei Denkaufgaben, was es zu einer leistungsstarken, allgemeinen Methode zur Textgenerierung aus Sprachmodellen macht.
Die rasante Weiterentwicklung großer Sprachmodelle (Large Language Models, LLMs) hat die natürliche Sprachverarbeitung (Natural Language Processing, NLP) revolutioniert. Obwohl diese Modelle hervorragend darin sind, menschenähnlichen Text zu verstehen und zu generieren, kann ihre breite Anwendung aufgrund der hohen Kosten problematisch sein. SortedNet ist eine neuartige Trainingsmethode, die dynamische Inferenz für tiefe neuronale Netze ermöglicht. Sie nutzt die Modularität von Netzwerken, um Teilmodelle mit unterschiedlichen Rechenlasten zu erstellen und diese basierend auf ihren Rechen-/Genauigkeitsmerkmalen in verschachtelter Weise zu sortieren. Wir erweitern SortedNet auf generative NLP-Aufgaben, wodurch große Sprachmodelle dynamisch werden, ohne dass ein erneutes Vortraining erforderlich ist und lediglich das standardmäßige Supervised Fine-Tuning (SFT) durch Sorted Fine-Tuning (SoFT) zu denselben Kosten ersetzt wird. Unser Ansatz steigert die Effizienz der Modelle und eliminiert die Notwendigkeit mehrerer Modelle für verschiedene Szenarien während der Inferenz. Wir zeigen, dass wir mit diesem Ansatz das Potenzial der Zwischenschichten von Transformern freisetzen können, um das Zieloutput zu generieren. Unsere Teilmodelle bleiben integrale Bestandteile des ursprünglichen Modells, wodurch Speicheranforderungen und Übergangskosten zwischen verschiedenen Rechen-/Latenzbudgets minimiert werden. Durch die Anwendung dieses Ansatzes auf LLaMa 2 13B für das Fine-Tuning auf dem Stanford Alpaca-Datensatz und den Vergleich mit normalem Tuning und Early Exit über den PandaLM-Benchmark zeigen wir, dass Sorted Fine-Tuning Modelle liefern kann, die doppelt so schnell sind wie das ursprüngliche Modell, während die Leistung erhalten bleibt oder sogar übertroffen wird.
Große Sprachmodelle (LLMs) haben bemerkenswerte Leistungen bei einer Vielzahl von natürlichen Sprachaufgaben gezeigt, basierend auf nur wenigen Beispielen natürlicher Sprachinstruktionen, wodurch der Bedarf an umfangreicher Feature-Engineering reduziert wird. Die leistungsstärksten LLMs sind jedoch meist Closed-Source oder in ihrer Fähigkeit für Sprachen außer Englisch eingeschränkt. In diesem technischen Bericht stellen wir Baichuan 2 vor, eine Reihe von groß angelegten mehrsprachigen Sprachmodellen mit 7 Milliarden und 13 Milliarden Parametern, die von Grund auf mit 2,6 Billionen Tokens trainiert wurden. Baichuan 2 erreicht oder übertrifft andere Open-Source-Modelle ähnlicher Größe auf öffentlichen Benchmarks wie MMLU, CMMLU, GSM8K und HumanEval. Darüber hinaus zeichnet sich Baichuan 2 in vertikalen Domänen wie Medizin und Recht aus. Wir werden alle Pre-Training-Modellcheckpoints veröffentlichen, um der Forschungsgemeinschaft zu ermöglichen, die Trainingsdynamik von Baichuan 2 besser zu verstehen.
Das visuelle Instruktions-Tuning hat in letzter Zeit mit Open-Source-Modellen für große multimodale Modelle (LMM) wie LLaVA und MiniGPT-4 ermutigende Fortschritte gezeigt. Die meisten bestehenden Studien zu Open-Source-LMMs verwenden jedoch Modelle mit 13 Milliarden Parametern oder weniger. In diesem Artikel präsentieren wir eine empirische Studie zur Skalierung von LLaVA auf 33 Milliarden und 65/70 Milliarden Parameter und teilen unsere Erkenntnisse aus Untersuchungen zu Bildauflösung, Datenmischung und parameter-effizienten Trainingsmethoden wie LoRA/QLoRA. Diese werden anhand ihrer Auswirkungen auf die multimodalen und sprachlichen Fähigkeiten bei der Bewältigung realer Aufgaben in der Praxis bewertet. Wir stellen fest, dass die Skalierung von LMMs die Modellleistung und die sprachlichen Fähigkeiten konsequent verbessert und dass die Leistung von LoRA/QLoRA-Tuning von LMMs mit der Leistung des vollständigen Fein-Tunings vergleichbar ist. Darüber hinaus unterstreicht die Studie die Bedeutung höherer Bildauflösungen und der Mischung multimodaler Sprachdaten zur Verbesserung der LMM-Leistung, und visuelles Instruktions-Tuning kann manchmal die rein sprachliche Fähigkeit von LMMs verbessern. Wir hoffen, dass diese Studie die Forschung zu state-of-the-art LMMs in größerem Maßstab zugänglicher macht und somit dazu beiträgt, stärkere Baselines für zukünftige Forschung zu etablieren. Code und Checkpoints werden öffentlich zugänglich gemacht.
Die Generierung von Grafiklayouts, ein wachsendes Forschungsfeld, spielt eine bedeutende Rolle bei der Benutzerbindung und der Wahrnehmung von Informationen. Bestehende Methoden behandeln die Layoutgenerierung hauptsächlich als numerische Optimierungsaufgabe, wobei sie sich auf quantitative Aspekte konzentrieren und die semantischen Informationen des Layouts, wie die Beziehung zwischen den einzelnen Layoutelementen, vernachlässigen. In diesem Artikel stellen wir LayoutNUWA vor, das erste Modell, das die Layoutgenerierung als eine Codegenerierungsaufgabe behandelt, um die semantischen Informationen zu verbessern und das versteckte Layoutwissen von großen Sprachmodellen (LLMs) zu nutzen. Konkret entwickeln wir einen Code-Instruct-Tuning-Ansatz (CIT), der aus drei miteinander verbundenen Modulen besteht: 1) Das Code-Initialisierungsmodul (CI) quantifiziert die numerischen Bedingungen und initialisiert sie als HTML-Code mit strategisch platzierten Masken; 2) Das Code-Vervollständigungsmodul (CC) nutzt das Formatierungswissen von LLMs, um die maskierten Bereiche im HTML-Code auszufüllen; 3) Das Code-Rendering-Modul (CR) transformiert den vervollständigten Code in das endgültige Layout, wodurch ein hoch interpretierbarer und transparenter Layoutgenerierungsprozess gewährleistet wird, der Code direkt in ein visualisiertes Layout abbildet. Wir erreichen signifikante state-of-the-art Leistungen (sogar über 50 % Verbesserungen) auf mehreren Datensätzen, was die starken Fähigkeiten von LayoutNUWA unterstreicht. Unser Code ist verfügbar unter https://github.com/ProjectNUWA/LayoutNUWA.
Große Sprachmodelle (LLMs) besitzen die Fähigkeit, komplexe Planungsaufgaben in einem Multi-Agenten-System durchzuführen und können diese Agenten koordinieren, um anspruchsvolle Aufgaben zu erledigen, die umfangreiche Zusammenarbeit erfordern. Trotz der Einführung zahlreicher Spiele-Frameworks fehlen der Community jedoch ausreichende Benchmarks für den Aufbau einer allgemeinen Infrastruktur zur Multi-Agenten-Kollaboration, die sowohl die Zusammenarbeit von LLMs als auch die zwischen Menschen und NPCs umfasst. In dieser Arbeit schlagen wir eine neuartige Infrastruktur vor – MindAgent –, um die emergenten Fähigkeiten zur Planung und Koordination für die Interaktion in Spielen zu bewerten. Insbesondere nutzt unsere Infrastruktur bestehende Spiele-Frameworks, um i) das Verständnis des Koordinators für ein Multi-Agenten-System zu erfordern, ii) mit menschlichen Spielern über nicht feinabgestimmte, aber geeignete Anweisungen zusammenzuarbeiten und iii) ein In-Context-Lernen mit Few-Shot-Prompts und Feedback zu etablieren. Darüber hinaus stellen wir CUISINEWORLD vor, ein neues Spielszenario und einen zugehörigen Benchmark, der die Effizienz der Multi-Agenten-Kollaboration bewertet und die gleichzeitige Steuerung mehrerer Agenten im Spiel überwacht. Wir führen umfassende Bewertungen mit einer neuen automatisierten Metrik, CoS, zur Berechnung der Kollaborationseffizienz durch. Schließlich kann unsere Infrastruktur in realen Spielszenarien eingesetzt werden, insbesondere in einer angepassten VR-Version von CUISINEWORLD, und in bestehenden, breiteren Minecraft-Spielwelten adaptiert werden. Wir hoffen, dass unsere Erkenntnisse zu LLMs und die neue Infrastruktur für allgemeine Planungs- und Koordinationsaufgaben dazu beitragen können, zu beleuchten, wie solche Fähigkeiten durch das Lernen aus großen Sprachkorpora erworben werden können.
Mit dem raschen Fortschritt praktischer Anwendungen, die auf großen Sprachmodellen basieren, hat die Bedeutung der Extrapolation von Leistung im Forschungsbereich exponentiell zugenommen. In unserer Studie haben wir ein anomales Verhalten in Transformer-Modellen identifiziert, das bisher übersehen wurde und zu einem Chaos um die nächsten Tokens führte, die die wichtigsten Informationen trugen. Wir haben diese Entdeckung als "Kopfschmerz der Transformer" bezeichnet. Um dieses Problem grundlegend zu lösen, haben wir eine neuartige Selbstaufmerksamkeitsstruktur namens Collinear Constrained Attention (CoCA) eingeführt. Diese Struktur kann nahtlos mit bestehenden Extrapolations-, Interpolationsmethoden und anderen Optimierungsstrategien für traditionelle Transformer-Modelle integriert werden. Wir haben eine hervorragende Extrapolationsleistung sogar für 16-fache bis 24-fache Sequenzlängen während der Inferenz ohne jegliches Fine-Tuning unseres Modells erreicht. Wir haben auch die Rechen- und Speichereffizienz von CoCA verbessert, um dessen Praktikabilität sicherzustellen. Wir planen, CoCA in Kürze als Open Source zu veröffentlichen. In der Zwischenzeit haben wir unseren Code im Anhang zur Verfügung gestellt, um Experimente zu reproduzieren.
Große Sprachmodelle (LLMs) haben die natürliche Sprachverarbeitung revolutioniert, doch die Ausrichtung dieser Modelle an menschlichen Werten und Präferenzen mittels Reinforcement Learning from Human Feedback (RLHF) bleibt eine erhebliche Herausforderung. Diese Herausforderung ist durch verschiedene Instabilitäten gekennzeichnet, wie beispielsweise Reward Hacking und katastrophales Vergessen. In diesem technischen Bericht schlagen wir zwei Innovationen zur Stabilisierung des RLHF-Trainings vor: 1) Das Advantage-Modell, das direkt den Vorteilswert modelliert, d.h. die zusätzliche Belohnung im Vergleich zu den erwarteten Belohnungen, und die Bewertungsverteilungen über verschiedene Aufgaben hinweg reguliert, um Reward Hacking zu verhindern. 2) Selektives Rehearsal, das katastrophales Vergessen mildert, indem es strategisch Daten für das PPO-Training und die Wissensauffrischung auswählt. Unsere experimentelle Analyse an öffentlichen und proprietären Datensätzen zeigt, dass die vorgeschlagenen Methoden nicht nur die Stabilität im RLHF-Training erhöhen, sondern auch höhere Belohnungswerte und Gewinnraten erzielen.
Trotz der Leistungsfähigkeit von Large Language Models (LLMs) wie GPT-4 haben sie immer noch Schwierigkeiten mit Aufgaben, die die Erzeugung komplexer, strukturierter Ausgaben erfordern. In dieser Studie bewerten wir die Fähigkeit aktueller LLMs, komplexe strukturierte Daten zu generieren, und schlagen einen strukturorientierten Feinabstimmungsansatz als Lösung zur Verbesserung dieser Fähigkeit vor. Um eine umfassende Bewertung durchzuführen, schlagen wir Struc-Bench vor, das fünf repräsentative LLMs (d. h. GPT-NeoX 20B, GPT-3.5, GPT-4 und Vicuna) umfasst und sie auf unseren sorgfältig konstruierten Datensätzen, die Rohtext, HTML und LaTeX-Tabellen abdecken, evaluiert. Basierend auf unserer Analyse der aktuellen Modellleistung identifizieren wir spezifische häufige Formatierungsfehler und Bereiche mit Verbesserungspotenzial. Um komplexe Formatierungsanforderungen zu bewältigen, nutzen wir FormatCoT (Chain-of-Thought), um Formatierungsanweisungen aus Zielausgaben zu generieren. Unsere Experimente zeigen, dass unsere strukturorientierte Feinabstimmungsmethode, wenn sie auf LLaMA-7B angewendet wird, die Einhaltung natürlicher Sprachbeschränkungen signifikant verbessert und andere evaluierte LLMs übertrifft. Basierend auf diesen Ergebnissen präsentieren wir eine Fähigkeitskarte der Modellfähigkeiten aus sechs Dimensionen (d. h. Abdeckung, Formatierung, Schlussfolgerung, Verständnis, Pragmatik und Halluzination). Diese Karte hebt die Schwächen von LLMs bei der Handhabung komplexer strukturierter Ausgaben hervor und weist auf vielversprechende Richtungen für zukünftige Arbeiten hin. Unser Code und unsere Modelle sind unter https://github.com/gersteinlab/Struc-Bench zu finden.
Große Sprachmodelle mit Fähigkeiten zur Befolgung von Anweisungen haben das Feld der künstlichen Intelligenz revolutioniert. Diese Modelle zeigen eine außergewöhnliche Generalisierbarkeit, um verschiedene reale Aufgaben durch ihre natürlichen Sprachschnittstellen zu bewältigen. Ihre Leistung hängt jedoch stark von hochwertigen Beispieldaten ab, die oft schwer zu beschaffen sind. Diese Herausforderung wird noch verstärkt, wenn es um die multimodale Befolgung von Anweisungen geht. Wir stellen TextBind vor, ein nahezu annotationsfreies Framework, das größere Sprachmodelle mit der Fähigkeit zur mehrstufigen, verschachtelten multimodalen Befolgung von Anweisungen ausstattet. Unser Ansatz benötigt lediglich Bild-Beschriftungs-Paare und generiert mehrstufige multimodale Anweisungs-Antwort-Gespräche aus einem Sprachmodell. Wir veröffentlichen unseren Datensatz, unser Modell und eine Demo, um zukünftige Forschungen im Bereich der multimodalen Befolgung von Anweisungen zu fördern.
Shampoo ist ein Online- und stochastischer Optimierungsalgorithmus, der zur AdaGrad-Familie von Methoden für das Training neuronaler Netzwerke gehört. Es konstruiert einen blockdiagonalen Preconditioner, bei dem jeder Block aus einer groben Kronecker-Produkt-Approximation des vollständigen Matrix-AdaGrad für jeden Parameter des neuronalen Netzwerks besteht. In dieser Arbeit liefern wir eine vollständige Beschreibung des Algorithmus sowie der Leistungsoptimierungen, die unsere Implementierung nutzt, um tiefe Netzwerke in großem Maßstab in PyTorch zu trainieren. Unsere Implementierung ermöglicht ein schnelles, verteiltes Datenparallel-Training auf mehreren GPUs, indem der Speicher und die Berechnung, die mit den Blöcken jedes Parameters verbunden sind, über PyTorchs DTensor-Datenstruktur verteilt werden und ein AllGather-Primitiv auf den berechneten Suchrichtungen bei jeder Iteration durchgeführt wird. Diese wesentliche Leistungssteigerung ermöglicht es uns, höchstens eine 10%ige Reduzierung der pro Schritt gemessenen Wanduhrzeit im Vergleich zu standardmäßigen diagonalen Skalierungsmethoden für adaptive Gradienten zu erreichen. Wir validieren unsere Implementierung durch eine Ablationsstudie zum Training von ImageNet ResNet50, die die Überlegenheit von Shampoo gegenüber Standard-Trainingsrezepten mit minimaler Hyperparameter-Optimierung demonstriert.
Das traditionelle Problem des Dialogue State Tracking (DST) zielt darauf ab, Benutzerpräferenzen und -absichten in Benutzer-Agent-Gesprächen zu verfolgen. Während dies für aufgabenorientierte Dialogsysteme, die eng definierte Anwendungsbereiche unterstützen, ausreichend ist, hat die Einführung von Chat-Systemen auf Basis von Large Language Models (LLMs) viele reale Komplexitäten in offenen Domänendialogen mit sich gebracht. Diese Komplexitäten zeigen sich in Form von erhöhter Schwierigkeit bei kontextuellen Interaktionen, längeren Dialogsitzungen, die eine Vielzahl von Themen umfassen, und häufigeren Kontextwechseln. Um diese Herausforderungen, die sich aus der Entwicklung von LLM-basierten Chat-Systemen ergeben, zu bewältigen, schlagen wir eine gemeinsame Dialogsegmentierung und Zustandsverfolgung pro Segment in offenen Domänendialogsystemen vor. Unter der Annahme eines Zero-Shot-Settings, das für ein echtes offenes Domänendialogsystem geeignet ist, präsentieren wir S3-DST, eine strukturierte Prompting-Technik, die Pre-Analytical Recollection nutzt, einen neuartigen Grounding-Mechanismus, den wir zur Verbesserung der Langzeitkontextverfolgung entwickelt haben. Um die Wirksamkeit unseres vorgeschlagenen Ansatzes in der gemeinsamen Segmentierung und Zustandsverfolgung zu demonstrieren, evaluieren wir S3-DST auf einem proprietären, anonymisierten Datensatz für offene Domänendialoge sowie auf öffentlich verfügbaren DST- und Segmentierungsdatensätzen. In allen Datensätzen und Settings übertrifft S3-DST durchweg den State-of-the-art und zeigt damit seine Stärke und Robustheit für die nächste Generation von LLM-basierten Chat-Systemen.
Bei der sprachmodellbasierten Musikerzeugung wird ein erzeugtes Wellenformsignal durch eine Sequenz hierarchischer Token-Stapel dargestellt, die entweder auf autoregressive Weise oder parallel dekodiert werden können, abhängig von den Codebook-Mustern. Insbesondere stellt das Abflachen der Codebooks die Strategie mit der höchsten Dekodierungsqualität dar, ist jedoch bekanntlich langsam. Zu diesem Zweck schlagen wir eine neuartige Stapel-und-Verzögerungs-Dekodierungsstrategie vor, um die flache Musterdekodierung zu verbessern, bei der die Erzeugungsgeschwindigkeit im Vergleich zur herkömmlichen flachen Dekodierung viermal schneller ist. Dies bringt die Inferenzzeit nahe an die der Verzögerungsdekodierungsstrategie und ermöglicht eine schnellere Inferenz auf der GPU bei kleinen Batch-Größen. Bei demselben Inferenzeffizienzbudget wie beim Verzögerungsmuster zeigen wir, dass der vorgeschlagene Ansatz bei objektiven Bewertungen besser abschneidet und die Qualitätslücke zum flachen Muster nahezu schließt. Die Ergebnisse werden durch subjektive Bewertungen gestützt, die zeigen, dass die vom neuen Modell erzeugten Samples bei denselben Textprompts leicht häufiger bevorzugt werden als die von dem konkurrierenden Modell erzeugten Samples.
Die Modellanpassung ist entscheidend, um die Diskrepanz zwischen den Proxy-Trainingsdaten und den tatsächlichen Benutzerdaten zu bewältigen. Um eine effektive Anpassung durchzuführen, werden Textdaten der Benutzer typischerweise auf Servern oder ihren lokalen Geräten gespeichert, wo nachgelagerte Modelle der natürlichen Sprachverarbeitung (NLP) direkt mit solchen domänenspezifischen Daten trainiert werden können. Dies könnte jedoch Datenschutz- und Sicherheitsbedenken aufwerfen, da das Risiko besteht, dass Benutzerinformationen für Angreifer zugänglich werden. Das Ersetzen von identifizierenden Informationen in Textdaten durch einen generischen Marker wurde kürzlich untersucht. In dieser Arbeit nutzen wir große Sprachmodelle (LLMs), um Ersatzvorschläge für maskierte Tokens zu generieren und deren Wirksamkeit bei nachgelagerten Sprachmodellierungsaufgaben zu bewerten. Insbesondere schlagen wir mehrere vortrainierte und feinabgestimmte LLM-basierte Ansätze vor und führen empirische Studien auf verschiedenen Datensätzen durch, um diese Methoden zu vergleichen. Die experimentellen Ergebnisse zeigen, dass Modelle, die auf den verschleierten Korpora trainiert wurden, eine vergleichbare Leistung erzielen können wie Modelle, die auf den ursprünglichen Daten ohne datenschutzbewahrende Token-Maskierung trainiert wurden.
Dieses Papier präsentiert einen innovativen Ansatz zur Verbesserung der Kontrolle über die Audiogenerierung, indem die Ausrichtung zwischen Audio- und Textrepräsentationen während des Modelltrainings betont wird. Im Kontext der sprachmodellbasierten Audiogenerierung nutzt das Modell Eingaben sowohl aus textuellen als auch aus Audio-Token-Repräsentationen, um nachfolgende Audio-Token vorherzusagen. Die derzeitige Konfiguration weist jedoch keine explizite Regularisierung auf, um die Ausrichtung zwischen der gewählten Textrepräsentation und den Vorhersagen des Sprachmodells sicherzustellen. Unser Vorschlag beinhaltet die Einführung einer Regularisierung für Audio- und Textrepräsentationen, insbesondere während der Phase der klassifikatorfreien Führung (Classifier-Free Guidance, CFG), bei der die Textbedingung während des Trainings des Sprachmodells von der Kreuzaufmerksamkeit ausgeschlossen wird. Ziel dieser vorgeschlagenen Repräsentationsregularisierung ist es, Diskrepanzen in der Ähnlichkeit von Audio und Text im Vergleich zu anderen Proben innerhalb desselben Trainingsbatches zu minimieren. Experimentelle Ergebnisse sowohl bei Aufgaben zur Musik- als auch zur Audiogenerierung zeigen, dass unsere vorgeschlagenen Methoden zu Verbesserungen in objektiven Metriken für beide Generierungsarten führen sowie zu einer Steigerung der menschlichen Wahrnehmung bei der Audiogenerierung.
Spoken Semantic Parsing (SSP) beinhaltet die Erzeugung maschinenverständlicher Parses aus gesprochener Eingabe. Das Training robuster Modelle für bestehende Anwendungsdomänen, die in Trainingsdaten repräsentiert sind, oder die Erweiterung auf neue Domänen erfordert entsprechende Tripel aus Sprach-, Transkript- und semantischen Parse-Daten, deren Beschaffung kostspielig ist. In diesem Artikel gehen wir diese Herausforderung an, indem wir Methoden untersuchen, die Transkript-Semantic-Parse-Daten (ungepaarten Text) ohne entsprechende Sprachdaten nutzen können. Zunächst werden, wenn ungepaarter Text aus bestehenden Textkorpora stammt, Joint Audio Text (JAT) und Text-to-Speech (TTS) als Möglichkeiten zur Erzeugung von Sprachrepräsentationen für ungepaarten Text verglichen. Experimente mit dem STOP-Datensatz zeigen, dass ungepaarter Text aus bestehenden und neuen Domänen die Leistung um 2 % bzw. 30 % im absoluten Exact Match (EM) verbessert. Zweitens betrachten wir das Szenario, in dem ungepaarter Text nicht in bestehenden Textkorpora verfügbar ist. Wir schlagen vor, Large Language Models (LLMs) zu verwenden, um ungepaarten Text für bestehende und neue Domänen zu generieren. Experimente zeigen, dass Beispiele und Wörter, die mit Intents gemeinsam auftreten, genutzt werden können, um ungepaarten Text mit Llama 2.0 zu erzeugen. Die Verwendung des generierten Texts mit JAT und TTS für Spoken Semantic Parsing verbessert EM auf STOP um 1,4 % bzw. 2,6 % absolut für bestehende und neue Domänen.