Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
StarCraft II ist eine der anspruchsvollsten simulierten Umgebungen für Reinforcement Learning; es ist teilweise beobachtbar, stochastisch, multi-agentenbasiert, und die Beherrschung von StarCraft II erfordert strategische Planung über lange Zeithorizonte mit Echtzeit-Ausführung auf niedriger Ebene. Es verfügt zudem über eine aktive professionelle Wettkampfszene. StarCraft II eignet sich in besonderer Weise für die Weiterentwicklung von Offline-RL-Algorithmen, sowohl aufgrund seiner herausfordernden Natur als auch, weil Blizzard einen umfangreichen Datensatz mit Millionen von StarCraft II-Spielen, die von menschlichen Spielern gespielt wurden, veröffentlicht hat. Diese Arbeit nutzt dies und etabliert einen Benchmark, genannt AlphaStar Unplugged, der bisher unerreichte Herausforderungen für Offline Reinforcement Learning einführt. Wir definieren einen Datensatz (eine Teilmenge der Veröffentlichung von Blizzard), Tools zur Standardisierung einer API für maschinelle Lernmethoden und ein Evaluationsprotokoll. Wir präsentieren auch Baseline-Agenten, einschließlich Behavior Cloning, Offline-Varianten von Actor-Critic und MuZero. Wir verbessern den Stand der Technik von Agenten, die ausschließlich Offline-Daten verwenden, und erreichen eine Gewinnrate von 90 % gegen den zuvor veröffentlichten AlphaStar Behavior Cloning Agenten.
Große Sprachmodelle (LLMs) werden zunehmend intelligenter und autonomer und zielen auf praktische Missionen in der realen Welt ab, die über traditionelle NLP-Aufgaben hinausgehen. Infolgedessen besteht ein dringender Bedarf, LLMs als Agenten in interaktiven Umgebungen mit anspruchsvollen Aufgaben zu evaluieren. Wir präsentieren AgentBench, einen mehrdimensionalen, sich weiterentwickelnden Benchmark, der derzeit aus 8 verschiedenen Umgebungen besteht, um die Fähigkeiten von LLMs als Agenten in Bezug auf logisches Denken und Entscheidungsfindung in einem mehrstufigen, offenen Generierungssetting zu bewerten. Unsere umfangreichen Tests mit 25 LLMs (einschließlich APIs und Open-Source-Modellen) zeigen, dass zwar führende kommerzielle LLMs eine starke Fähigkeit aufweisen, als Agenten in komplexen Umgebungen zu agieren, es jedoch eine erhebliche Leistungslücke zwischen ihnen und Open-Source-Konkurrenten gibt. Es dient auch als Bestandteil eines laufenden Projekts mit breiterer Abdeckung und tieferer Berücksichtigung einer systematischen LLM-Evaluierung. Datensätze, Umgebungen und ein integriertes Evaluationspaket für AgentBench sind unter https://github.com/THUDM/AgentBench veröffentlicht.
Die Erstellung ausdrucksstarker, vielfältiger und hochwertiger 3D-Avatare aus stark individualisierten Textbeschreibungen und Posenerfassung stellt eine anspruchsvolle Aufgabe dar, insbesondere aufgrund der Komplexität der Modellierung und Texturierung in 3D, die Details und verschiedene Stile (realistisch, fiktiv usw.) gewährleisten müssen. Wir präsentieren AvatarVerse, eine stabile Pipeline zur Generierung ausdrucksstarker, hochwertiger 3D-Avatare ausschließlich aus Textbeschreibungen und Posenerfassung. Konkret führen wir ein 2D-Diffusionsmodell ein, das auf DensePose-Signalen basiert, um die 3D-Posenkontrolle von Avataren durch 2D-Bilder zu ermöglichen, was die Blickkonsistenz in teilweise beobachteten Szenarien verbessert. Dieses Modell adressiert das berüchtigte Janus-Problem und stabilisiert den Generierungsprozess erheblich. Darüber hinaus schlagen wir eine progressive Hochauflösungs-3D-Synthese-Strategie vor, die eine deutliche Verbesserung der Qualität der erstellten 3D-Avatare bewirkt. Auf diese Weise erreicht die vorgeschlagene AvatarVerse-Pipeline ein Zero-Shot-3D-Modellieren von 3D-Avataren, die nicht nur ausdrucksstärker, sondern auch von höherer Qualität und Detailtreue sind als bisherige Arbeiten. Umfangreiche qualitative Bewertungen und Nutzerstudien demonstrieren die Überlegenheit von AvatarVerse bei der Synthese hochdetaillierter 3D-Avatare und setzen damit einen neuen Standard in der Erstellung hochwertiger und stabiler 3D-Avatare. Unsere Projektseite ist: https://avatarverse3d.github.io
Aktuelle Text-zu-Bild-Generierungsmodelle ermöglichen es uns, unsere Worte in lebendige, fesselnde Bilder zu verwandeln. Der anschließende Aufschwung von Personalisierungstechniken hat es uns zudem erlaubt, einzigartige Konzepte in neuen Szenarien zu imaginieren. Dennoch bleibt eine faszinierende Frage offen: Wie können wir ein neues, imaginäres Konzept generieren, das noch nie zuvor gesehen wurde? In diesem Artikel stellen wir die Aufgabe der kreativen Text-zu-Bild-Generierung vor, bei der wir neue Mitglieder einer breiten Kategorie erzeugen möchten (z. B. ein Haustier, das sich von allen existierenden Haustieren unterscheidet). Wir nutzen die bisher wenig erforschten Diffusion-Prior-Modelle und zeigen, dass das Problem der kreativen Generierung als Optimierungsprozess über den Ausgaberaum des Diffusion-Priors formuliert werden kann, was zu einer Reihe von „Prior-Beschränkungen“ führt. Um zu verhindern, dass unser generiertes Konzept in bestehende Mitglieder konvergiert, integrieren wir ein Frage-Antwort-Modell, das adaptiv neue Beschränkungen zum Optimierungsproblem hinzufügt und das Modell dazu anregt, zunehmend einzigartigere Kreationen zu entdecken. Schließlich zeigen wir, dass unsere Prior-Beschränkungen auch als starkes Mischungsmechanismus dienen können, der es uns ermöglicht, Hybride zwischen generierten Konzepten zu erstellen und damit noch mehr Flexibilität in den kreativen Prozess einzubringen.
Große Sprachmodelle (LLMs) haben eine bemerkenswerte Generalisierungsfähigkeit bewiesen, wie beispielsweise das Verständnis beliebiger Entitäten und Relationen. Instruction Tuning hat sich als effektiv erwiesen, um LLMs in kosteneffizientere Modelle wie Alpaca und Vicuna zu destillieren. Dennoch hinken solche Schülermodelle den ursprünglichen LLMs in nachgelagerten Anwendungen deutlich hinterher. In diesem Artikel untersuchen wir gezielte Destillation mit missionsorientiertem Instruction Tuning, um Schülermodelle zu trainieren, die in einer breiten Anwendungsklasse wie der offenen Informationsextraktion hervorragende Leistungen erbringen können. Anhand einer Fallstudie zur Named Entity Recognition (NER) zeigen wir, wie ChatGPT in viel kleinere UniversalNER-Modelle für offene NER destilliert werden kann. Zur Evaluierung stellen wir den bisher größten NER-Benchmark zusammen, der 43 Datensätze aus 9 verschiedenen Domänen wie Biomedizin, Programmierung, Social Media, Recht und Finanzen umfasst. Ohne direkte Überwachung zu verwenden, erreicht UniversalNER eine bemerkenswerte NER-Genauigkeit über Zehntausende von Entitätstypen hinweg und übertrifft allgemeine, instruction-getunte Modelle wie Alpaca und Vicuna im Durchschnitt um über 30 absolute F1-Punkte. Mit einem winzigen Bruchteil der Parameter erwirbt UniversalNER nicht nur die Fähigkeit von ChatGPT, beliebige Entitätstypen zu erkennen, sondern übertrifft dessen NER-Genauigkeit im Durchschnitt um 7-9 absolute F1-Punkte. Bemerkenswerterweise übertrifft UniversalNER sogar state-of-the-art, multi-task instruction-getunte Systeme wie InstructUIE, das überwachte NER-Beispiele verwendet, deutlich. Wir führen auch umfassende Ablationsstudien durch, um die Auswirkungen verschiedener Komponenten in unserem Destillationsansatz zu bewerten. Wir werden das Destillationsrezept, die Daten und die UniversalNER-Modelle veröffentlichen, um zukünftige Forschungen zur gezielten Destillation zu erleichtern.
Sehen heißt glauben, doch der zugrunde liegende Mechanismus, wie menschliche visuelle Wahrnehmungen mit unseren kognitiven Prozessen verflochten sind, bleibt ein Rätsel. Dank der jüngsten Fortschritte in den Bereichen Neurowissenschaften und künstliche Intelligenz konnten wir visuell evozierte Gehirnaktivitäten aufzeichnen und die visuelle Wahrnehmungsfähigkeit durch computergestützte Ansätze nachahmen. In diesem Artikel konzentrieren wir uns auf die Rekonstruktion visueller Reize, indem wir die beobachteten Bilder auf der Grundlage leicht zugänglicher Gehirnsignale, d.h. Elektroenzephalographie (EEG)-Daten, rekonstruieren. Da EEG-Signale dynamisch im Zeitreihenformat vorliegen und für ihre Rauschanfälligkeit bekannt sind, erfordern die Verarbeitung und Extraktion nützlicher Informationen besondere Anstrengungen. In diesem Artikel schlagen wir eine umfassende Pipeline namens NeuroImagen vor, um visuelle Reizbilder aus EEG-Signalen zu rekonstruieren. Insbesondere integrieren wir eine neuartige, mehrstufige Dekodierung von Wahrnehmungsinformationen, um mehrschichtige Ausgaben aus den gegebenen EEG-Daten zu erzeugen. Ein latentes Diffusionsmodell nutzt anschließend die extrahierten Informationen, um hochauflösende visuelle Reizbilder zu rekonstruieren. Die experimentellen Ergebnisse verdeutlichen die Effektivität der Bildrekonstruktion und die überlegene quantitative Leistungsfähigkeit unseres vorgeschlagenen Verfahrens.
Mit den jüngsten Fortschritten in der natürlichen Sprachverarbeitung haben sich Large Language Models (LLMs) als leistungsstarke Werkzeuge für verschiedene reale Anwendungen etabliert. Trotz ihrer Fähigkeiten können die intrinsischen generativen Eigenschaften von LLMs für die Bewältigung komplexer Aufgaben, die eine Kombination aus Aufgabenplanung und der Nutzung externer Werkzeuge erfordern, unzureichend sein. In diesem Artikel schlagen wir zunächst ein strukturiertes Framework vor, das speziell für LLM-basierte KI-Agenten entwickelt wurde, und diskutieren die entscheidenden Fähigkeiten, die zur Bewältigung anspruchsvoller Probleme notwendig sind. Innerhalb dieses Frameworks entwerfen wir zwei verschiedene Arten von Agenten (d.h. Ein-Schritt-Agent und sequenzieller Agent), um den Inferenzprozess durchzuführen. Anschließend instanziieren wir das Framework mit verschiedenen LLMs und bewerten deren Fähigkeiten zur Aufgabenplanung und Werkzeugnutzung (TPTU) anhand typischer Aufgaben. Indem wir zentrale Erkenntnisse und Herausforderungen hervorheben, möchten wir Forschern und Praktikern eine hilfreiche Ressource bieten, um die Leistungsfähigkeit von LLMs in ihren KI-Anwendungen zu nutzen. Unsere Studie unterstreicht das erhebliche Potenzial dieser Modelle, identifiziert jedoch auch Bereiche, die weitere Untersuchungen und Verbesserungen erfordern.
Beim Versuch, bessere Einblicke in ein maschinelles Lernmodell zu gewinnen, um die damit verbundenen Risiken zu verstehen und zu mindern, stellt sich eine potenziell wertvolle Informationsquelle: Welche Trainingsbeispiele tragen am meisten zu einem bestimmten Verhalten bei? Einflussfunktionen zielen darauf ab, eine kontrafaktische Frage zu beantworten: Wie würden sich die Parameter des Modells (und damit seine Ausgaben) ändern, wenn eine bestimmte Sequenz zum Trainingsdatensatz hinzugefügt würde? Während Einflussfunktionen bei kleinen Modellen Erkenntnisse geliefert haben, sind sie aufgrund der Schwierigkeit, ein inverses Hessian-Vektor-Produkt (IHVP) zu berechnen, schwer auf große Sprachmodelle (LLMs) zu skalieren. Wir verwenden die Eigenwert-korrigierte Kronecker-Faktorisierte Näherung der Krümmung (EK-FAC), um Einflussfunktionen auf LLMs mit bis zu 52 Milliarden Parametern zu skalieren. In unseren Experimenten erreicht EK-FAC eine ähnliche Genauigkeit wie traditionelle Einflussfunktionsschätzer, obwohl die IHVP-Berechnung um Größenordnungen schneller ist. Wir untersuchen zwei algorithmische Techniken, um die Kosten für die Berechnung von Gradienten potenzieller Trainingssequenzen zu reduzieren: TF-IDF-Filterung und Abfragebündelung. Wir nutzen Einflussfunktionen, um die Generalisierungsmuster von LLMs zu untersuchen, einschließlich der Sparsity der Einflussmuster, zunehmender Abstraktion mit der Skalierung, mathematischer und programmiertechnischer Fähigkeiten, cross-lingualer Generalisierung und Rollenspielverhalten. Trotz vieler scheinbar ausgefeilter Formen der Generalisierung identifizieren wir eine überraschende Einschränkung: Die Einflüsse fallen auf nahezu Null, wenn die Reihenfolge der Schlüsselphrasen umgedreht wird. Insgesamt geben uns Einflussfunktionen ein leistungsstarkes neues Werkzeug, um die Generalisierungseigenschaften von LLMs zu untersuchen.
Bewegungsvergrößerung ermöglicht es uns, subtile, kaum wahrnehmbare Bewegungen sichtbar zu machen. Bisherige Methoden funktionieren jedoch nur für 2D-Videos, die mit einer feststehenden Kamera aufgenommen wurden. Wir präsentieren eine Methode zur 3D-Bewegungsvergrößerung, die subtile Bewegungen in Szenen, die von einer beweglichen Kamera aufgenommen wurden, vergrößern kann und dabei das Rendern neuer Ansichten unterstützt. Wir repräsentieren die Szene mit zeitlich variierenden Strahlungsfeldern und nutzen das Eulersche Prinzip der Bewegungsvergrößerung, um die Variation der Einbettung eines festen Punktes über die Zeit zu extrahieren und zu verstärken. Wir untersuchen und validieren unser vorgeschlagenes Prinzip für die 3D-Bewegungsvergrößerung sowohl mit impliziten als auch mit triplanenbasierten Strahlungsfeldern als zugrunde liegende 3D-Szenendarstellung. Wir bewerten die Wirksamkeit unserer Methode anhand von synthetischen und realen Szenen, die unter verschiedenen Kameraeinstellungen aufgenommen wurden.
Jüngste Fortschritte bei großen visuell-sprachlichen Modellen (Large Vision-Language Models, LVLMs) haben bedeutende Fortschritte bei der Bewältigung komplexer multimodaler Aufgaben gezeigt. Unter diesen wegweisenden Entwicklungen sticht Googles Bard durch seine bemerkenswerten multimodalen Fähigkeiten hervor, die ein umfassendes Verständnis und logisches Denken über verschiedene Domänen hinweg fördern. Diese Arbeit präsentiert eine frühe und ganzheitliche Bewertung der multimodalen Fähigkeiten von LVLMs, mit einem besonderen Fokus auf Bard, durch die Vorstellung einer leichtgewichtigen Variante von LVLM-eHub, genannt Tiny LVLM-eHub. Im Vergleich zur Standardversion besitzt Tiny LVLM-eHub mehrere attraktive Eigenschaften. Erstens bietet es eine systematische Bewertung von sechs Kategorien multimodaler Fähigkeiten, einschließlich visueller Wahrnehmung, visueller Wissensaneignung, visueller Logik, visuellem gesunden Menschenverstand, Objekthalluzination und verkörperter Intelligenz, durch quantitative Auswertung von 42 standardisierten textbezogenen visuellen Benchmarks. Zweitens führt es eine detaillierte Analyse der Vorhersagen von LVLMs unter Verwendung der ChatGPT Ensemble Evaluation (CEE) durch, was zu einer robusten und genauen Bewertung führt und eine verbesserte Übereinstimmung mit der menschlichen Bewertung im Vergleich zum Wortabgleichansatz zeigt. Drittens umfasst es lediglich 2.1K Bild-Text-Paare, was die einfache Nutzung für Praktiker zur Bewertung ihrer eigenen offline LVLMs erleichtert. Durch umfangreiche experimentelle Analysen zeigt diese Studie, dass Bard in den meisten multimodalen Fähigkeiten frühere LVLMs übertrifft, mit Ausnahme der Objekthalluzination, für die Bard weiterhin anfällig ist. Tiny LVLM-eHub dient als Baseline-Bewertung für verschiedene LVLMs und fördert innovative Strategien zur Weiterentwicklung multimodaler Techniken. Unser Projekt ist öffentlich verfügbar unter https://github.com/OpenGVLab/Multi-Modality-Arena.
Bestehende große Sprachmodelle müssen K Mal ausgeführt werden, um eine Sequenz von K Tokens zu generieren. In diesem Artikel präsentieren wir RecycleGPT, ein generatives Sprachmodell mit schneller Dekodierungsgeschwindigkeit, das vorgefertigte Modellzustände recycelt, ohne das gesamte Modell in mehreren Schritten ausführen zu müssen. Unser Ansatz basiert auf der Beobachtung, dass benachbarte Tokens in einer Sequenz in der Regel starke Korrelationen aufweisen und der nächste Token in einer Sequenz auf der Grundlage der vorhergehenden Tokens vernünftig erraten oder abgeleitet werden kann. Durch theoretische Bewertungen und praktische Tests bei nachgelagerten Textgenerierungsaufgaben demonstrieren wir die Wirksamkeit unseres Ansatzes bei der Reduzierung der Inferenzlatenz, wobei wir eine Beschleunigung von bis zu 1,4x bei gleichbleibend hoher Leistung erreichen.
Kürzlich haben Neural Radiance Fields (NeRF) bedeutende Erfolge in der Synthese neuer Ansichten, Oberflächenrekonstruktion usw. gezeigt. Da jedoch keine physikalische Reflexion in ihrem Rendering-Prozess berücksichtigt wird, interpretiert NeRF die Spiegelung im Spiegel als eine separate virtuelle Szene, was zu einer ungenauen Rekonstruktion des Spiegels und mehransichtlich inkonsistenten Spiegelungen führt. In diesem Artikel stellen wir ein neuartiges Neural-Rendering-Framework vor, genannt Mirror-NeRF, das in der Lage ist, die genaue Geometrie und Reflexion des Spiegels zu erlernen und verschiedene Szenenmanipulationsanwendungen mit Spiegeln zu unterstützen, wie das Hinzufügen neuer Objekte oder Spiegel in die Szene und die Synthese der Reflexionen dieser neuen Objekte in Spiegeln, die Kontrolle der Spiegelrauheit usw. Um dieses Ziel zu erreichen, schlagen wir ein vereinheitlichtes Radiance Field vor, indem wir die Reflexionswahrscheinlichkeit einführen und Strahlen gemäß dem Lichttransportmodell des Whitted Ray Tracing verfolgen, und entwickeln mehrere Techniken, um den Lernprozess zu erleichtern. Experimente und Vergleiche auf sowohl synthetischen als auch realen Datensätzen demonstrieren die Überlegenheit unserer Methode. Der Code und ergänzendes Material sind auf der Projektwebseite verfügbar: https://zju3dv.github.io/Mirror-NeRF/.
Für die industrielle Steuerung ist die Entwicklung von Hochleistungsreglern mit wenigen Proben und geringem technischen Schuldenstand attraktiv. Foundation-Modelle, die über umfangreiches Vorwissen verfügen, das durch Vorabtraining mit internetgroßen Datensätzen erworben wurde, haben das Potenzial, bei geeigneter Prompt-Gestaltung gute Regler zu sein. In diesem Artikel nehmen wir die Gebäudesteuerung von HVAC (Heizung, Lüftung und Klimatisierung) als Beispiel, um die Fähigkeit von GPT-4 (eines der erstklassigen Foundation-Modelle) als Regler zu untersuchen. Um HVAC zu steuern, verpacken wir die Aufgabe als Sprachspiel, indem wir GPT-4 bei jedem Schritt einen Text bereitstellen, der eine kurze Beschreibung der Aufgabe, mehrere ausgewählte Demonstrationen und die aktuelle Beobachtung enthält, und die von GPT-4 zurückgegebenen Aktionen ausführen. Wir führen eine Reihe von Experimenten durch, um die folgenden Fragen zu beantworten: 1) Wie gut kann GPT-4 HVAC steuern? 2) Wie gut kann GPT-4 auf verschiedene Szenarien der HVAC-Steuerung verallgemeinern? 3) Wie beeinflussen verschiedene Teile des Textkontexts die Leistung? Im Allgemeinen stellen wir fest, dass GPT-4 eine mit RL-Methoden vergleichbare Leistung mit wenigen Proben und geringem technischen Schuldenstand erreicht, was das Potenzial der direkten Anwendung von Foundation-Modellen auf industrielle Steuerungsaufgaben aufzeigt.
Die Entwicklung von Deep-Learning-Softwarebibliotheken ermöglichte bedeutende Fortschritte auf diesem Gebiet, indem sie Nutzern erlaubte, sich auf die Modellierung zu konzentrieren, während die Bibliothek die mühsame und zeitaufwendige Aufgabe der Optimierung der Ausführung für moderne Hardwarebeschleuniger übernahm. Dies hat jedoch nur bestimmte Arten von Deep-Learning-Modellen begünstigt, wie beispielsweise Transformers, deren Grundoperationen sich leicht auf vektorisierte Berechnungen abbilden lassen. Modelle, die strukturierte Objekte wie Bäume und Segmentierungen explizit berücksichtigen, profitierten nicht in gleichem Maße, da sie spezielle Algorithmen erfordern, die schwierig in vektorisierter Form zu implementieren sind. SynJax geht dieses Problem direkt an, indem es eine effiziente vektorisierte Implementierung von Inferenzalgorithmen für strukturierte Verteilungen bereitstellt, die Ausrichtungen, Tagging, Segmentierungen, Konstituentenbäume und Spannbäume abdecken. Mit SynJax können wir groß skalierbare differenzierbare Modelle entwickeln, die die Struktur in den Daten explizit modellieren. Der Code ist verfügbar unter https://github.com/deepmind/synjax.
Quantisierung hat sich zu einer gängigen Kompressionstechnik entwickelt, um die Modellgröße, den Rechenbedarf und den Energieverbrauch moderner tiefer neuronaler Netze (DNNs) zu reduzieren. Mit der verbesserten numerischen Unterstützung in aktueller Hardware, einschließlich mehrerer Varianten von Integer- und Gleitkommazahlen, ist eine gemischte Präzisionsquantisierung notwendig geworden, um hochwertige Ergebnisse bei geringen Modellkosten zu erzielen. Bisherige Methoden zur gemischten Präzisionsquantisierung führten entweder eine Post-Training-Quantisierungssuche durch, was die Genauigkeit beeinträchtigt, oder eine differenzierbare Quantisierungssuche, was zu hohem Speicherbedarf durch Verzweigungen führt. Daher schlagen wir die erste One-Shot-Mixed-Precision-Quantisierungssuche vor, die das erneute Training sowohl für Integer- als auch für niedrigpräzise Gleitkommamodelle überflüssig macht. Wir evaluieren unsere Gleitkomma- und Integer-Quantisierungssuche (FLIQS) an mehreren Faltungsnetzwerken und Vision-Transformer-Modellen, um Pareto-optimale Modelle zu entdecken. Unser Ansatz findet Modelle, die sich gegenüber gleichmäßiger Präzision, manueller gemischter Präzision und aktuellen Integer-Quantisierungssuchmethoden verbessern. Mit der vorgeschlagenen Integer-Quantisierungssuche steigern wir die Genauigkeit von ResNet-18 auf ImageNet um 1,31 Prozentpunkte und von ResNet-50 um 0,90 Prozentpunkte bei gleichen Modellkosten im Vergleich zu früheren Methoden. Darüber hinaus untersuchen wir erstmals eine neuartige gemischte Präzisions-Gleitkommasuche und verbessern MobileNetV2 um bis zu 0,98 Prozentpunkte im Vergleich zu bisherigen State-of-the-Art-FP8-Modellen. Schließlich erweitern wir FLIQS, um gleichzeitig einen gemeinsamen Quantisierungs- und neuronalen Architekturraum zu durchsuchen, und verbessern die ImageNet-Genauigkeit um 2,69 Prozentpunkte bei ähnlichen Modellkosten in einem MobileNetV2-Suchraum.
Tiefe generative Modelle können hochwertige Audiodaten erzeugen, die auf verschiedenen Arten von Repräsentationen basieren (z. B. Mel-Spektrogramme, Mel-Frequenz-Cepstrum-Koeffizienten (MFCC)). Kürzlich wurden solche Modelle verwendet, um Audiowellenformen auf der Grundlage stark komprimierter Repräsentationen zu synthetisieren. Obwohl diese Methoden beeindruckende Ergebnisse liefern, neigen sie dazu, hörbare Artefakte zu erzeugen, wenn die Konditionierung fehlerhaft oder unvollkommen ist. Ein alternativer Modellierungsansatz ist die Verwendung von Diffusionsmodellen. Diese wurden jedoch hauptsächlich als Sprachvocoder (d. h. basierend auf Mel-Spektrogrammen) oder zur Erzeugung von Signalen mit relativ niedriger Abtastrate eingesetzt. In dieser Arbeit schlagen wir ein hochwertiges, multiband-basiertes Diffusionsframework vor, das jede Art von Audiomodaliät (z. B. Sprache, Musik, Umgebungsgeräusche) aus niedrigbitratigen diskreten Repräsentationen erzeugt. Bei gleicher Bitrate übertrifft der vorgeschlagene Ansatz state-of-the-art generative Techniken in Bezug auf die wahrgenommene Qualität. Trainings- und Evaluierungscode sowie Audio-Beispiele sind auf der Facebookresearch/audiocraft Github-Seite verfügbar.