Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Das Konsistenzmodell (CM) hat in letzter Zeit signifikante Fortschritte bei der Beschleunigung der Generierung von Diffusionsmodellen gemacht. Allerdings bleibt seine Anwendung auf die hochauflösende, textbedingte Bildgenerierung im latenten Raum (auch bekannt als LCM) unbefriedigend. In diesem Artikel identifizieren wir drei wesentliche Mängel im aktuellen Design des LCM. Wir untersuchen die Gründe für diese Einschränkungen und schlagen das Phased Consistency Model (PCM) vor, das den Designraum verallgemeinert und alle identifizierten Einschränkungen angeht. Unsere Bewertungen zeigen, dass PCM bei Einstellungen zur Generierung von 1 bis 16 Schritten signifikant besser abschneidet als LCM. Obwohl PCM speziell für die Mehrschrittverfeinerung konzipiert ist, erzielt es sogar überlegene oder vergleichbare Ergebnisse bei der 1-Schritt-Generierung im Vergleich zu zuvor führenden speziell konzipierten 1-Schritt-Methoden. Darüber hinaus zeigen wir, dass die Methodik von PCM vielseitig ist und auf die Videogenerierung anwendbar ist, was es uns ermöglicht, den führenden wenige-Schritt-Text-zu-Video-Generator zu trainieren. Weitere Details finden Sie unter https://g-u-n.github.io/projects/pcm/.
Mit zunehmender Größe und Komplexität von Deep Neural Networks (DNNs) überschreiten sie oft die Speicherkapazität eines einzelnen Beschleunigers, was die Aufteilung der Modellparameter auf mehrere Beschleuniger erforderlich macht. Die Pipeline-Parallelität ist eine häufig verwendete Aufteilungsstrategie zur Schulung großer DNNs. Allerdings werden aktuelle Implementierungen der Pipeline-Parallelität unbeabsichtigt durch die automatischen Differentiationswerkzeuge, die von ML-Frameworks bereitgestellt werden, ausgebremst. Dieses Papier stellt das 2-stufige Backpropagation (2BP) vor. Durch die Aufteilung des Rückpropagierungsschritts in zwei separate Phasen können wir die Leerlauf-Rechenzeit reduzieren. Wir haben 2BP an verschiedenen Modellarchitekturen und Pipelining-Zeitplänen getestet und in allen Fällen eine Steigerung der Durchsatzleistung erzielt. Unter Verwendung von 2BP konnten wir im Vergleich zu traditionellen Methoden bei der Schulung eines LLaMa-ähnlichen Transformers mit 7 Milliarden Parametern auf 4 GPUs eine Steigerung der Durchsatzleistung um das 1,70-fache erreichen.
In jüngster Zeit haben Fortschritte im Bereich der Text-zu-Musik-Bearbeitung, die Textabfragen zur Modifikation von Musik verwenden (z.B. durch Änderung des Stils oder Anpassung von Instrumentalkomponenten), einzigartige Herausforderungen und Chancen für die KI-unterstützte Musikproduktion eröffnet. Frühere Ansätze in diesem Bereich waren durch die Notwendigkeit, spezifische Bearbeitungsmodelle von Grund auf zu trainieren, eingeschränkt, was sowohl ressourcenintensiv als auch ineffizient ist; andere Forschungen nutzen große Sprachmodelle, um bearbeitete Musik vorherzusagen, was zu ungenauer Audiorekonstruktion führt. Um die Stärken zu vereinen und diese Einschränkungen zu überwinden, stellen wir Instruct-MusicGen vor, einen neuartigen Ansatz, der ein vortrainiertes MusicGen-Modell feinabstimmt, um effizient Bearbeitungsanweisungen wie Hinzufügen, Entfernen oder Trennen von Spuren zu befolgen. Unser Ansatz beinhaltet eine Modifikation der ursprünglichen MusicGen-Architektur durch Integration eines Textfusion-Moduls und eines Audiofusion-Moduls, die es dem Modell ermöglichen, Anweisungstexte und Audioeingaben gleichzeitig zu verarbeiten und die gewünschte bearbeitete Musik zu erzeugen. Bemerkenswerterweise führt Instruct-MusicGen nur 8% neue Parameter in das ursprüngliche MusicGen-Modell ein und wird nur für 5.000 Schritte trainiert, erreicht jedoch überlegene Leistung in allen Aufgaben im Vergleich zu bestehenden Baselines und zeigt eine Leistung vergleichbar mit den für spezifische Aufgaben trainierten Modellen. Dieser Fortschritt verbessert nicht nur die Effizienz der Text-zu-Musik-Bearbeitung, sondern erweitert auch die Anwendbarkeit von Musiksprachmodellen in dynamischen Musikproduktionsumgebungen.
Yuan 2.0-M32, mit einer ähnlichen Grundarchitektur wie Yuan-2.0 2B, verwendet eine Mixture-of-Experts-Architektur mit 32 Experten, von denen 2 aktiv sind. Ein neues Router-Netzwerk, Attention Router, wird vorgeschlagen und übernommen, um eine effizientere Auswahl der Experten zu ermöglichen, was die Genauigkeit um 3,8% im Vergleich zum Modell mit klassischem Router-Netzwerk erhöht. Yuan 2.0-M32 wird von Grund auf mit 2000B Tokens trainiert, wobei der Trainingsrechenaufwand nur 9,25% eines dichten Modells mit derselben Parametergröße beträgt. Yuan 2.0-M32 zeigt eine wettbewerbsfähige Leistungsfähigkeit in den Bereichen Codierung, Mathematik und verschiedenen Fachgebieten, wobei nur 3,7B aktive Parameter von insgesamt 40B verwendet werden und 7,4 GFlops Vorwärtsberechnung pro Token durchgeführt werden, was jeweils nur 1/19 von Llama3-70B entspricht. Yuan 2.0-M32 übertrifft Llama3-70B in den MATH- und ARC-Challenge-Benchmarks mit Genauigkeiten von 55,89 bzw. 95,8. Die Modelle und Quellcodes von Yuan 2.0-M32 sind auf Github veröffentlicht.
Die Fähigkeiten moderner großer Sprachmodelle (LLMs) bei der Lösung von natürlicher Sprachverarbeitung, komplexem Denken, Sentimentanalyse und anderen Aufgaben waren außergewöhnlich, was zu ihrer umfangreichen Übernahme geführt hat. Leider gehen diese Fähigkeiten mit sehr hohen Speicher- und Rechenkosten einher, was den Einsatz von LLMs auf den meisten Hardwareplattformen ausschließt. Um dem entgegenzuwirken, schlagen wir eine effektive Methode zur Suche nach Pareto-optimalen Netzwerkarchitekturen auf Basis von LLaMA2-7B unter Verwendung von One-Shot-NAS vor. Insbesondere feinabstimmen wir LLaMA2-7B nur einmal und wenden dann eine Suche basierend auf genetischen Algorithmen an, um kleinere, weniger rechenintensive Netzwerkarchitekturen zu finden. Wir zeigen, dass das vortrainierte LLaMA2-7B-Netzwerk für bestimmte Standard-Benchmark-Aufgaben unnötig groß und komplex ist. Genauer gesagt zeigen wir eine Reduzierung der Modellgröße um das 1,5-fache und eine Beschleunigung des Durchsatzes um das 1,3-fache für bestimmte Aufgaben bei vernachlässigbarem Rückgang der Genauigkeit. Neben der Suche nach kleineren, leistungsstärkeren Netzwerkarchitekturen erreicht unsere Methode dies effektiver und effizienter als bestimmte Techniken zur Beschneidung oder Verknappung. Abschließend zeigen wir, wie die Quantisierung eine Ergänzung zu unserer Methode ist und dass die Größe und Komplexität der von uns gefundenen Netzwerke durch Quantisierung weiter verringert werden können. Wir sind der Überzeugung, dass unsere Arbeit einen Weg zur automatischen Erstellung von LLMs bietet, die auf kostengünstigeren und leichter verfügbaren Hardwareplattformen eingesetzt werden können.
Die Rekonstruktion von 4D-Szenen aus Videoeingaben ist eine entscheidende, aber anspruchsvolle Aufgabe. Herkömmliche Methoden stützen sich in der Regel auf Annahmen von Multi-View-Videoeingaben, bekannten Kameraparametern oder statischen Szenen, die unter realen Bedingungen in der Natur typischerweise fehlen. In diesem Artikel entspannen wir all diese Einschränkungen und widmen uns einer äußerst ehrgeizigen, aber praktischen Aufgabe, die wir als AnyV4D bezeichnen: Wir nehmen an, dass nur ein monokulares Video ohne Kameraparameter als Eingabe vorhanden ist und wir beabsichtigen, die dynamische 4D-Welt neben den Kamerapositionen wiederherzustellen. Zu diesem Zweck stellen wir GFlow vor, ein neues Framework, das nur 2D-Vorannahmen (Tiefe und optischer Fluss) nutzt, um ein Video (3D) in eine 4D explizite Darstellung zu überführen, die einen Fluss von Gauss'schem Splatting durch Raum und Zeit beinhaltet. GFlow gliedert zuerst die Szene in ruhende und sich bewegende Teile, wendet dann einen sequenziellen Optimierungsprozess an, der Kamerapositionen und die Dynamik von 3D-Gauss-Punkten basierend auf 2D-Vorannahmen und Szenenclustering optimiert, um die Treue zwischen benachbarten Punkten und eine gleichmäßige Bewegung über die Frames hinweg zu gewährleisten. Da dynamische Szenen immer neue Inhalte einführen, schlagen wir auch eine neue pixelweise Verdichtungsstrategie für Gauss-Punkte vor, um neue visuelle Inhalte zu integrieren. Darüber hinaus überwindet GFlow die Grenzen der reinen 4D-Rekonstruktion; es ermöglicht auch das Tracking von Punkten über Frames hinweg ohne vorheriges Training und segmentiert bewegliche Objekte aus der Szene auf eine unüberwachte Weise. Zusätzlich können die Kamerapositionen jedes Frames aus GFlow abgeleitet werden, was die Darstellung neuer Ansichten einer Videoszene durch Änderung der Kameraposition ermöglicht. Durch die Verwendung der expliziten Darstellung können wir Szenen- oder Objektebene-Editierungen nach Bedarf problemlos durchführen, was seine Vielseitigkeit und Leistungsfähigkeit unterstreicht. Besuchen Sie unsere Projektwebsite unter: https://littlepure2333.github.io/GFlow
Große Sprachmodelle (LLMs) sind in letzter Zeit als leistungsstarke Werkzeuge zur Bewältigung vieler sprachverarbeitender Aufgaben aufgetaucht. Trotz ihres Erfolgs ist das Training und Feintuning dieser Modelle immer noch viel zu rechen- und speicherintensiv. In diesem Artikel identifizieren und charakterisieren wir die wichtigen Komponenten, die für eine effektive Modellkonvergenz mittels Gradientenabstieg erforderlich sind. Dabei stellen wir fest, dass die Zwischenaktivierungen, die zur Implementierung der Rückpropagierung verwendet werden, ohne Leistungseinbußen übermäßig komprimiert werden können. Dieses Ergebnis führt uns zu einem kostengünstigen und speichereffizienten Algorithmus sowohl für das Feintuning als auch für das Vortraining von LLMs. Der vorgeschlagene Algorithmus unterteilt einfach die Tokens in kleinere Untertokens, bevor sie während des Vorwärtspasses auf einen festen eindimensionalen Unterraum projiziert werden. Diese Merkmale werden dann grob während des Rückwärtspasses rekonstruiert, um die Aktualisierungsregeln zu implementieren. Wir bestätigen die Wirksamkeit unseres Algorithmus als ergänzend zu vielen modernen PEFT-Methoden auf dem VTAB-1k Feintuning-Benchmark. Darüber hinaus übertreffen wir QLoRA beim Feintuning von LLaMA und zeigen eine wettbewerbsfähige Leistung gegenüber anderen speichereffizienten Vortrainierungsmethoden auf dem groß angelegten C4-Datensatz.
Die Bearbeitung von Szenenbildern ist entscheidend für Unterhaltung, Fotografie und Werbegrafik. Bestehende Methoden konzentrieren sich ausschließlich entweder auf die 2D-Bearbeitung einzelner Objekte oder die 3D-Bearbeitung globaler Szenen. Dies führt zu einem Mangel an einem einheitlichen Ansatz, um Szenen auf 3D-Ebene mit unterschiedlichen Granularitätsstufen effektiv zu steuern und zu manipulieren. In dieser Arbeit schlagen wir 3DitScene vor, ein neuartiges und einheitliches Szenenbearbeitungs-Framework, das auf sprachgesteuertem entkoppeltem Gauss-Splatting basiert und eine nahtlose Bearbeitung von 2D auf 3D ermöglicht, wodurch eine präzise Steuerung über Szenenzusammensetzung und einzelne Objekte ermöglicht wird. Zunächst integrieren wir 3D-Gaußscheiben, die durch generative Priors und Optimierungstechniken verfeinert werden. Sprachmerkmale von CLIP führen dann Semantik in die 3D-Geometrie für die Entkopplung von Objekten ein. Mit den entkoppelten Gaußschen ermöglicht 3DitScene Manipulationen sowohl auf globaler als auch auf individueller Ebene, revolutioniert die kreative Ausdrucksweise und ermöglicht die Kontrolle über Szenen und Objekte. Experimentelle Ergebnisse zeigen die Wirksamkeit und Vielseitigkeit von 3DitScene bei der Bearbeitung von Szenenbildern. Der Code und die Online-Demo finden Sie auf unserer Projekt-Homepage: https://zqh0253.github.io/3DitScene/.