Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir stellen Voyager vor, den ersten LLM-basierten verkörperten lebenslang lernenden Agenten in Minecraft, der kontinuierlich die Welt erkundet, vielfältige Fähigkeiten erwirbt und neue Entdeckungen ohne menschliches Eingreifen macht. Voyager besteht aus drei Schlüsselkomponenten: 1) einem automatischen Lehrplan, der die Erkundung maximiert, 2) einer ständig wachsenden Fähigkeitsbibliothek ausführbaren Codes zur Speicherung und Abfrage komplexer Verhaltensweisen und 3) einem neuen iterativen Prompting-Mechanismus, der Umgebungsfeedback, Ausführungsfehler und Selbstverifikation zur Programmverbesserung einbezieht. Voyager interagiert mit GPT-4 über Blackbox-Abfragen, wodurch die Notwendigkeit einer Feinabstimmung der Modellparameter entfällt. Die von Voyager entwickelten Fähigkeiten sind zeitlich erweitert, interpretierbar und kompositionell, was die Fähigkeiten des Agenten schnell steigert und katastrophales Vergessen mildert. Empirisch zeigt Voyager eine starke lebenslange Lernfähigkeit im Kontext und eine außergewöhnliche Kompetenz im Spielen von Minecraft. Es erhält 3,3x mehr einzigartige Gegenstände, legt 2,3x längere Strecken zurück und schaltet Schlüsseltechnologie-Meilensteine bis zu 15,3x schneller frei als bisherige SOTA-Methoden. Voyager ist in der Lage, die gelernte Fähigkeitsbibliothek in einer neuen Minecraft-Welt zu nutzen, um neue Aufgaben von Grund auf zu lösen, während andere Techniken Schwierigkeiten haben, zu generalisieren. Wir stellen unseren vollständigen Code und die Prompts unter https://voyager.minedojo.org/ als Open Source zur Verfügung.
Score Distillation Sampling (SDS) hat großes Potenzial in der Text-zu-3D-Generierung gezeigt, indem vortrainierte großskalige Text-zu-Bild-Diffusionsmodelle destilliert werden, leidet jedoch unter Problemen wie Übersättigung, Überschmierung und geringer Diversität. In dieser Arbeit schlagen wir vor, den 3D-Parameter als Zufallsvariable anstelle einer Konstanten wie in SDS zu modellieren und präsentieren Variational Score Distillation (VSD), ein prinzipielles, partikelbasiertes variationsbasiertes Framework, um die genannten Probleme in der Text-zu-3D-Generierung zu erklären und zu adressieren. Wir zeigen, dass SDS ein Spezialfall von VSD ist und zu schlechten Ergebnissen sowohl bei kleinen als auch bei großen CFG-Gewichten führt. Im Vergleich dazu funktioniert VSD gut mit verschiedenen CFG-Gewichten, ähnlich dem ancestral sampling aus Diffusionsmodellen, und verbessert gleichzeitig die Diversität und die Probenqualität bei einem gemeinsamen CFG-Gewicht (d.h. 7,5). Wir präsentieren weiterhin verschiedene Verbesserungen im Designraum für Text-zu-3D, wie z.B. den Destillationszeitplan und die Dichteinitialisierung, die orthogonal zum Destillationsalgorithmus stehen und bisher nicht gut erforscht wurden. Unser Gesamtansatz, genannt ProlificDreamer, kann hochauflösende Renderings (d.h. 512×512) und hochwertige NeRF mit reicher Struktur und komplexen Effekten (z.B. Rauch und Tropfen) erzeugen. Darüber hinaus sind, ausgehend von NeRF, durch VSD feinabgestimmte Meshes detailliert und fotorealistisch. Projektseite: https://ml.cs.tsinghua.edu.cn/prolificdreamer/
Eine aufkommende Methode, um ein schwächeres Sprachmodell kostengünstig zu verbessern, besteht darin, es auf den Ausgaben eines stärkeren Modells, wie beispielsweise eines proprietären Systems wie ChatGPT (z.B. Alpaca, Self-Instruct und andere), zu finetunen. Dieser Ansatz zielt darauf ab, die Fähigkeiten des proprietären Modells kostengünstig mit einem schwächeren Open-Source-Modell nachzuahmen. In dieser Arbeit analysieren wir diesen Ansatz kritisch. Zunächst finetunen wir eine Reihe von Sprachmodellen, die ChatGPT nachahmen, unter Verwendung verschiedener Basismodellgrößen (1,5B–13B), Datenquellen und Nachahmungsdatenmengen (0,3M–150M Tokens). Anschließend bewerten wir die Modelle mithilfe von Crowd-Bewertern und kanonischen NLP-Benchmarks. Anfangs waren wir überrascht von der Ausgabequalität unserer Nachahmungsmodelle – sie scheinen weitaus besser darin zu sein, Anweisungen zu befolgen, und Crowd-Mitarbeiter bewerten ihre Ausgaben als konkurrenzfähig mit ChatGPT. Bei gezielteren automatischen Bewertungen stellen wir jedoch fest, dass Nachahmungsmodelle die Lücke zwischen dem Basismodell und ChatGPT bei Aufgaben, die in den Nachahmungsdaten nicht stark unterstützt werden, kaum oder gar nicht schließen. Wir zeigen, dass diese Leistungsunterschiede menschliche Bewerter übersehen können, da Nachahmungsmodelle geschickt darin sind, den Stil von ChatGPT nachzuahmen, nicht jedoch dessen Faktenkorrektheit. Insgesamt kommen wir zu dem Schluss, dass die Modellnachahmung eine trügerische Verheißung ist: Es besteht eine erhebliche Fähigkeitslücke zwischen Open- und Closed-Source-Sprachmodellen, die mit aktuellen Methoden nur durch eine unhandliche Menge an Nachahmungsdaten oder durch leistungsfähigere Basismodelle überbrückt werden kann. Daher argumentieren wir, dass die wirkungsvollste Maßnahme zur Verbesserung von Open-Source-Modellen darin besteht, die schwierige Herausforderung der Entwicklung besserer Basismodelle anzugehen, anstatt den kurzen Weg der Nachahmung proprietärer Systeme zu wählen.
Herausragende Ergebnisse der Text-zu-Bild (T2I)-Generierung mit Stable Diffusion Modellen (SDMs) gehen mit erheblichen Rechenanforderungen einher. Um dieses Problem zu lösen, hat sich die aktuelle Forschung zu effizienten SDMs darauf konzentriert, die Anzahl der Sampling-Schritte zu reduzieren und Netzwerkquantisierung zu nutzen. In einer orthogonalen Richtung zu diesen Ansätzen beleuchtet diese Studie die Effektivität klassischer architektonischer Kompression für die allgemeine T2I-Synthese durch die Einführung von blockreduzierten, wissensdistillierten SDMs (BK-SDMs). Wir entfernen mehrere Residual- und Attention-Blöcke aus dem U-Net der SDMs und erreichen dadurch eine Reduktion der Parameteranzahl, der MACs pro Sampling-Schritt und der Latenz um über 30 %. Wir führen eine distillationsbasierte Vortrainierung mit nur 0,22 Millionen LAION-Paaren (weniger als 0,1 % der vollständigen Trainingspaare) auf einer einzelnen A100-GPU durch. Trotz der begrenzten Ressourcen während des Trainings können unsere kompakten Modelle das ursprüngliche SDM durch den Nutzen von transferiertem Wissen nachahmen und erzielen wettbewerbsfähige Ergebnisse im Vergleich zu größeren Modellen mit mehreren Milliarden Parametern auf dem Zero-Shot MS-COCO-Benchmark. Darüber hinaus demonstrieren wir die Anwendbarkeit unserer leichtgewichtigen vortrainierten Modelle in der personalisierten Generierung durch DreamBooth-Finetuning.
Text-to-Image-Diffusionsmodelle können vielfältige, hochwertige Bilder basierend auf benutzerdefinierten Textanweisungen generieren. Aktuelle Forschung hat diese Modelle erweitert, um textgesteuerte Bildbearbeitung zu ermöglichen. Obwohl die Textführung eine intuitive Schnittstelle für Benutzer darstellt, gewährleistet sie oft nicht die präzise Konzeptvermittlung, die Benutzer intendieren. Um dieses Problem zu lösen, schlagen wir Custom-Edit vor, bei dem wir (i) ein Diffusionsmodell mit wenigen Referenzbildern anpassen und anschließend (ii) eine textgesteuerte Bearbeitung durchführen. Unsere zentrale Erkenntnis ist, dass die Anpassung nur der sprachrelevanten Parameter mit erweiterten Anweisungen die Ähnlichkeit zu den Referenzen signifikant verbessert, während die Ähnlichkeit zur Ausgangsquelle erhalten bleibt. Darüber hinaus stellen wir unser Vorgehen für jeden Anpassungs- und Bearbeitungsprozess bereit. Wir vergleichen gängige Anpassungsmethoden und validieren unsere Ergebnisse anhand zweier Bearbeitungsmethoden mit verschiedenen Datensätzen.
Jüngste Fortschritte in der Musikgenerierung wurden durch den state-of-the-art Ansatz MusicLM, der eine Hierarchie von drei Sprachmodellen (LMs) für semantische, grob akustische und fein akustische Modellierung umfasst, bemerkenswert vorangetrieben. Allerdings erfordert das Sampling mit MusicLM die sequenzielle Verarbeitung durch diese LMs, um die fein granularen akustischen Tokens zu erhalten, was es rechenintensiv und für eine Echtzeitgenerierung ungeeignet macht. Eine effiziente Musikgenerierung mit einer Qualität, die mit MusicLM vergleichbar ist, bleibt eine erhebliche Herausforderung. In diesem Artikel präsentieren wir MeLoDy (M für Musik; L für LM; D für Diffusion), ein LM-gesteuertes Diffusionsmodell, das Musikaufnahmen von state-of-the-art Qualität erzeugt und dabei 95,7 % bzw. 99,6 % der Vorwärtsdurchläufe in MusicLM für das Sampling von 10s bzw. 30s Musik reduziert. MeLoDy übernimmt das höchste LM von MusicLM für die semantische Modellierung und wendet ein neuartiges Dual-Path-Diffusion (DPD)-Modell sowie ein Audio-VAE-GAN an, um die konditionierenden semantischen Tokens effizient in Wellenform zu dekodieren. DPD wurde vorgeschlagen, um gleichzeitig die grobe und feine Akustik zu modellieren, indem die semantischen Informationen effektiv über Cross-Attention in jedem Denoising-Schritt in Segmente von Latents integriert werden. Unsere experimentellen Ergebnisse deuten auf die Überlegenheit von MeLoDy hin, nicht nur in seinen praktischen Vorteilen bei der Sampling-Geschwindigkeit und der unendlich fortsetzbaren Generierung, sondern auch in seiner state-of-the-art Musikalität, Audioqualität und Textkorrelation. Unsere Beispiele sind verfügbar unter https://Efficient-MeLoDy.github.io/.
Wir stellen Manifold Diffusion Fields (MDF) vor, einen Ansatz zum Erlernen generativer Modelle kontinuierlicher Funktionen, die auf Riemannschen Mannigfaltigkeiten definiert sind. Unter Nutzung von Erkenntnissen aus der spektralen Geometrieanalyse definieren wir ein intrinsisches Koordinatensystem auf der Mannigfaltigkeit über die Eigenfunktionen des Laplace-Beltrami-Operators. MDF repräsentiert Funktionen durch eine explizite Parametrisierung, die aus einer Menge von Ein- und Ausgabepaaren besteht. Unser Ansatz ermöglicht die Stichprobenziehung kontinuierlicher Funktionen auf Mannigfaltigkeiten und ist invariant gegenüber starren und isometrischen Transformationen der Mannigfaltigkeit. Empirische Ergebnisse auf mehreren Datensätzen und Mannigfaltigkeiten zeigen, dass MDF die Verteilungen solcher Funktionen mit besserer Diversität und Treue erfassen kann als bisherige Ansätze.
Text-to-Image-Diffusionsmodelle sind mittlerweile in der Lage, Bilder zu erzeugen, die oft nicht von echten Bildern zu unterscheiden sind. Um solche Bilder zu generieren, müssen diese Modelle die Semantik der Objekte verstehen, die sie erzeugen sollen. In dieser Arbeit zeigen wir, dass man ohne jegliches Training dieses semantische Wissen innerhalb von Diffusionsmodellen nutzen kann, um semantische Korrespondenzen zu finden – also Stellen in mehreren Bildern, die dieselbe semantische Bedeutung haben. Konkret optimieren wir für ein gegebenes Bild die Prompt-Embeddings dieser Modelle, um die Aufmerksamkeit auf die interessierenden Regionen zu maximieren. Diese optimierten Embeddings erfassen semantische Informationen über die Position, die dann auf ein anderes Bild übertragen werden können. Auf diese Weise erzielen wir Ergebnisse, die mit dem stark überwachten State-of-the-Art auf dem PF-Willow-Datensatz vergleichbar sind, und übertreffen signifikant (20,9 % relativ für den SPair-71k-Datensatz) alle bestehenden schwach oder unüberwachten Methoden auf den Datensätzen PF-Willow, CUB-200 und SPair-71k.