papers.title

papers.description

Phasen-Konsistenzmodell
Phased Consistency Model

May 28

ByFu-Yun Wang, Zhaoyang Huang, Alexander William Bergman, Dazhong Shen, Peng Gao, Michael Lingelbach, Keqiang Sun, Weikang Bian, Guanglu Song, Yu Liu, Hongsheng Li, Xiaogang Wang

Das Konsistenzmodell (CM) hat in letzter Zeit signifikante Fortschritte bei der Beschleunigung der Generierung von Diffusionsmodellen gemacht. Allerdings bleibt seine Anwendung auf die hochauflösende, textbedingte Bildgenerierung im latenten Raum (auch bekannt als LCM) unbefriedigend. In diesem Artikel identifizieren wir drei wesentliche Mängel im aktuellen Design des LCM. Wir untersuchen die Gründe für diese Einschränkungen und schlagen das Phased Consistency Model (PCM) vor, das den Designraum verallgemeinert und alle identifizierten Einschränkungen angeht. Unsere Bewertungen zeigen, dass PCM bei Einstellungen zur Generierung von 1 bis 16 Schritten signifikant besser abschneidet als LCM. Obwohl PCM speziell für die Mehrschrittverfeinerung konzipiert ist, erzielt es sogar überlegene oder vergleichbare Ergebnisse bei der 1-Schritt-Generierung im Vergleich zu zuvor führenden speziell konzipierten 1-Schritt-Methoden. Darüber hinaus zeigen wir, dass die Methodik von PCM vielseitig ist und auf die Videogenerierung anwendbar ist, was es uns ermöglicht, den führenden wenige-Schritt-Text-zu-Video-Generator zu trainieren. Weitere Details finden Sie unter https://g-u-n.github.io/projects/pcm/.

2BP: 2-stufige Rückwärtspropagation
2BP: 2-Stage Backpropagation

May 28

ByChristopher Rae, Joseph K. L. Lee, James Richings

Mit zunehmender Größe und Komplexität von Deep Neural Networks (DNNs) überschreiten sie oft die Speicherkapazität eines einzelnen Beschleunigers, was die Aufteilung der Modellparameter auf mehrere Beschleuniger erforderlich macht. Die Pipeline-Parallelität ist eine häufig verwendete Aufteilungsstrategie zur Schulung großer DNNs. Allerdings werden aktuelle Implementierungen der Pipeline-Parallelität unbeabsichtigt durch die automatischen Differentiationswerkzeuge, die von ML-Frameworks bereitgestellt werden, ausgebremst. Dieses Papier stellt das 2-stufige Backpropagation (2BP) vor. Durch die Aufteilung des Rückpropagierungsschritts in zwei separate Phasen können wir die Leerlauf-Rechenzeit reduzieren. Wir haben 2BP an verschiedenen Modellarchitekturen und Pipelining-Zeitplänen getestet und in allen Fällen eine Steigerung der Durchsatzleistung erzielt. Unter Verwendung von 2BP konnten wir im Vergleich zu traditionellen Methoden bei der Schulung eines LLaMa-ähnlichen Transformers mit 7 Milliarden Parametern auf 4 GPUs eine Steigerung der Durchsatzleistung um das 1,70-fache erreichen.

Instruct-MusicGen: Erschließung von Text-zu-Musik-Bearbeitung für Musiksprachmodelle durch Instruktionstuning
Instruct-MusicGen: Unlocking Text-to-Music Editing for Music Language Models via Instruction Tuning

May 28

ByYixiao Zhang, Yukara Ikemiya, Woosung Choi, Naoki Murata, Marco A. Martínez-Ramírez, Liwei Lin, Gus Xia, Wei-Hsiang Liao, Yuki Mitsufuji, Simon Dixon

In jüngster Zeit haben Fortschritte im Bereich der Text-zu-Musik-Bearbeitung, die Textabfragen zur Modifikation von Musik verwenden (z.B. durch Änderung des Stils oder Anpassung von Instrumentalkomponenten), einzigartige Herausforderungen und Chancen für die KI-unterstützte Musikproduktion eröffnet. Frühere Ansätze in diesem Bereich waren durch die Notwendigkeit, spezifische Bearbeitungsmodelle von Grund auf zu trainieren, eingeschränkt, was sowohl ressourcenintensiv als auch ineffizient ist; andere Forschungen nutzen große Sprachmodelle, um bearbeitete Musik vorherzusagen, was zu ungenauer Audiorekonstruktion führt. Um die Stärken zu vereinen und diese Einschränkungen zu überwinden, stellen wir Instruct-MusicGen vor, einen neuartigen Ansatz, der ein vortrainiertes MusicGen-Modell feinabstimmt, um effizient Bearbeitungsanweisungen wie Hinzufügen, Entfernen oder Trennen von Spuren zu befolgen. Unser Ansatz beinhaltet eine Modifikation der ursprünglichen MusicGen-Architektur durch Integration eines Textfusion-Moduls und eines Audiofusion-Moduls, die es dem Modell ermöglichen, Anweisungstexte und Audioeingaben gleichzeitig zu verarbeiten und die gewünschte bearbeitete Musik zu erzeugen. Bemerkenswerterweise führt Instruct-MusicGen nur 8% neue Parameter in das ursprüngliche MusicGen-Modell ein und wird nur für 5.000 Schritte trainiert, erreicht jedoch überlegene Leistung in allen Aufgaben im Vergleich zu bestehenden Baselines und zeigt eine Leistung vergleichbar mit den für spezifische Aufgaben trainierten Modellen. Dieser Fortschritt verbessert nicht nur die Effizienz der Text-zu-Musik-Bearbeitung, sondern erweitert auch die Anwendbarkeit von Musiksprachmodellen in dynamischen Musikproduktionsumgebungen.

Yuan 2.0-M32: Mischung von Experten mit Aufmerksamkeitsrouter
Yuan 2.0-M32: Mixture of Experts with Attention Router

May 28

ByShaohua Wu, Jiangang Luo, Xi Chen, Lingjun Li, Xudong Zhao, Tong Yu, Chao Wang, Yue Wang, Fei Wang, Weixu Qiao, Houbo He, Zeru Zhang, Zeyu Sun, Junxiong Mao, Chong Shen

Yuan 2.0-M32, mit einer ähnlichen Grundarchitektur wie Yuan-2.0 2B, verwendet eine Mixture-of-Experts-Architektur mit 32 Experten, von denen 2 aktiv sind. Ein neues Router-Netzwerk, Attention Router, wird vorgeschlagen und übernommen, um eine effizientere Auswahl der Experten zu ermöglichen, was die Genauigkeit um 3,8% im Vergleich zum Modell mit klassischem Router-Netzwerk erhöht. Yuan 2.0-M32 wird von Grund auf mit 2000B Tokens trainiert, wobei der Trainingsrechenaufwand nur 9,25% eines dichten Modells mit derselben Parametergröße beträgt. Yuan 2.0-M32 zeigt eine wettbewerbsfähige Leistungsfähigkeit in den Bereichen Codierung, Mathematik und verschiedenen Fachgebieten, wobei nur 3,7B aktive Parameter von insgesamt 40B verwendet werden und 7,4 GFlops Vorwärtsberechnung pro Token durchgeführt werden, was jeweils nur 1/19 von Llama3-70B entspricht. Yuan 2.0-M32 übertrifft Llama3-70B in den MATH- und ARC-Challenge-Benchmarks mit Genauigkeiten von 55,89 bzw. 95,8. Die Modelle und Quellcodes von Yuan 2.0-M32 sind auf Github veröffentlicht.

LLaMA-NAS: Effiziente Suche nach neuronalen Architekturen für große Sprachmodelle
LLaMA-NAS: Efficient Neural Architecture Search for Large Language Models

May 28

ByAnthony Sarah, Sharath Nittur Sridhar, Maciej Szankin, Sairam Sundaresan

Die Fähigkeiten moderner großer Sprachmodelle (LLMs) bei der Lösung von natürlicher Sprachverarbeitung, komplexem Denken, Sentimentanalyse und anderen Aufgaben waren außergewöhnlich, was zu ihrer umfangreichen Übernahme geführt hat. Leider gehen diese Fähigkeiten mit sehr hohen Speicher- und Rechenkosten einher, was den Einsatz von LLMs auf den meisten Hardwareplattformen ausschließt. Um dem entgegenzuwirken, schlagen wir eine effektive Methode zur Suche nach Pareto-optimalen Netzwerkarchitekturen auf Basis von LLaMA2-7B unter Verwendung von One-Shot-NAS vor. Insbesondere feinabstimmen wir LLaMA2-7B nur einmal und wenden dann eine Suche basierend auf genetischen Algorithmen an, um kleinere, weniger rechenintensive Netzwerkarchitekturen zu finden. Wir zeigen, dass das vortrainierte LLaMA2-7B-Netzwerk für bestimmte Standard-Benchmark-Aufgaben unnötig groß und komplex ist. Genauer gesagt zeigen wir eine Reduzierung der Modellgröße um das 1,5-fache und eine Beschleunigung des Durchsatzes um das 1,3-fache für bestimmte Aufgaben bei vernachlässigbarem Rückgang der Genauigkeit. Neben der Suche nach kleineren, leistungsstärkeren Netzwerkarchitekturen erreicht unsere Methode dies effektiver und effizienter als bestimmte Techniken zur Beschneidung oder Verknappung. Abschließend zeigen wir, wie die Quantisierung eine Ergänzung zu unserer Methode ist und dass die Größe und Komplexität der von uns gefundenen Netzwerke durch Quantisierung weiter verringert werden können. Wir sind der Überzeugung, dass unsere Arbeit einen Weg zur automatischen Erstellung von LLMs bietet, die auf kostengünstigeren und leichter verfügbaren Hardwareplattformen eingesetzt werden können.

GFlow: Wiederherstellung einer 4D-Welt aus monokularem Video
GFlow: Recovering 4D World from Monocular Video

May 28

ByShizun Wang, Xingyi Yang, Qiuhong Shen, Zhenxiang Jiang, Xinchao Wang

Die Rekonstruktion von 4D-Szenen aus Videoeingaben ist eine entscheidende, aber anspruchsvolle Aufgabe. Herkömmliche Methoden stützen sich in der Regel auf Annahmen von Multi-View-Videoeingaben, bekannten Kameraparametern oder statischen Szenen, die unter realen Bedingungen in der Natur typischerweise fehlen. In diesem Artikel entspannen wir all diese Einschränkungen und widmen uns einer äußerst ehrgeizigen, aber praktischen Aufgabe, die wir als AnyV4D bezeichnen: Wir nehmen an, dass nur ein monokulares Video ohne Kameraparameter als Eingabe vorhanden ist und wir beabsichtigen, die dynamische 4D-Welt neben den Kamerapositionen wiederherzustellen. Zu diesem Zweck stellen wir GFlow vor, ein neues Framework, das nur 2D-Vorannahmen (Tiefe und optischer Fluss) nutzt, um ein Video (3D) in eine 4D explizite Darstellung zu überführen, die einen Fluss von Gauss'schem Splatting durch Raum und Zeit beinhaltet. GFlow gliedert zuerst die Szene in ruhende und sich bewegende Teile, wendet dann einen sequenziellen Optimierungsprozess an, der Kamerapositionen und die Dynamik von 3D-Gauss-Punkten basierend auf 2D-Vorannahmen und Szenenclustering optimiert, um die Treue zwischen benachbarten Punkten und eine gleichmäßige Bewegung über die Frames hinweg zu gewährleisten. Da dynamische Szenen immer neue Inhalte einführen, schlagen wir auch eine neue pixelweise Verdichtungsstrategie für Gauss-Punkte vor, um neue visuelle Inhalte zu integrieren. Darüber hinaus überwindet GFlow die Grenzen der reinen 4D-Rekonstruktion; es ermöglicht auch das Tracking von Punkten über Frames hinweg ohne vorheriges Training und segmentiert bewegliche Objekte aus der Szene auf eine unüberwachte Weise. Zusätzlich können die Kamerapositionen jedes Frames aus GFlow abgeleitet werden, was die Darstellung neuer Ansichten einer Videoszene durch Änderung der Kameraposition ermöglicht. Durch die Verwendung der expliziten Darstellung können wir Szenen- oder Objektebene-Editierungen nach Bedarf problemlos durchführen, was seine Vielseitigkeit und Leistungsfähigkeit unterstreicht. Besuchen Sie unsere Projektwebsite unter: https://littlepure2333.github.io/GFlow

VeLoRA: Speichereffizientes Training unter Verwendung von Rang-1 Untertoken-Projektionen
VeLoRA: Memory Efficient Training using Rank-1 Sub-Token Projections

May 28

ByRoy Miles, Pradyumna Reddy, Ismail Elezi, Jiankang Deng

Große Sprachmodelle (LLMs) sind in letzter Zeit als leistungsstarke Werkzeuge zur Bewältigung vieler sprachverarbeitender Aufgaben aufgetaucht. Trotz ihres Erfolgs ist das Training und Feintuning dieser Modelle immer noch viel zu rechen- und speicherintensiv. In diesem Artikel identifizieren und charakterisieren wir die wichtigen Komponenten, die für eine effektive Modellkonvergenz mittels Gradientenabstieg erforderlich sind. Dabei stellen wir fest, dass die Zwischenaktivierungen, die zur Implementierung der Rückpropagierung verwendet werden, ohne Leistungseinbußen übermäßig komprimiert werden können. Dieses Ergebnis führt uns zu einem kostengünstigen und speichereffizienten Algorithmus sowohl für das Feintuning als auch für das Vortraining von LLMs. Der vorgeschlagene Algorithmus unterteilt einfach die Tokens in kleinere Untertokens, bevor sie während des Vorwärtspasses auf einen festen eindimensionalen Unterraum projiziert werden. Diese Merkmale werden dann grob während des Rückwärtspasses rekonstruiert, um die Aktualisierungsregeln zu implementieren. Wir bestätigen die Wirksamkeit unseres Algorithmus als ergänzend zu vielen modernen PEFT-Methoden auf dem VTAB-1k Feintuning-Benchmark. Darüber hinaus übertreffen wir QLoRA beim Feintuning von LLaMA und zeigen eine wettbewerbsfähige Leistung gegenüber anderen speichereffizienten Vortrainierungsmethoden auf dem groß angelegten C4-Datensatz.

3DitScene: Bearbeitung beliebiger Szenen mittels sprachgesteuerter entwirrter Gaußscher Splatting
3DitScene: Editing Any Scene via Language-guided Disentangled Gaussian Splatting

May 28

ByQihang Zhang, Yinghao Xu, Chaoyang Wang, Hsin-Ying Lee, Gordon Wetzstein, Bolei Zhou, Ceyuan Yang

Die Bearbeitung von Szenenbildern ist entscheidend für Unterhaltung, Fotografie und Werbegrafik. Bestehende Methoden konzentrieren sich ausschließlich entweder auf die 2D-Bearbeitung einzelner Objekte oder die 3D-Bearbeitung globaler Szenen. Dies führt zu einem Mangel an einem einheitlichen Ansatz, um Szenen auf 3D-Ebene mit unterschiedlichen Granularitätsstufen effektiv zu steuern und zu manipulieren. In dieser Arbeit schlagen wir 3DitScene vor, ein neuartiges und einheitliches Szenenbearbeitungs-Framework, das auf sprachgesteuertem entkoppeltem Gauss-Splatting basiert und eine nahtlose Bearbeitung von 2D auf 3D ermöglicht, wodurch eine präzise Steuerung über Szenenzusammensetzung und einzelne Objekte ermöglicht wird. Zunächst integrieren wir 3D-Gaußscheiben, die durch generative Priors und Optimierungstechniken verfeinert werden. Sprachmerkmale von CLIP führen dann Semantik in die 3D-Geometrie für die Entkopplung von Objekten ein. Mit den entkoppelten Gaußschen ermöglicht 3DitScene Manipulationen sowohl auf globaler als auch auf individueller Ebene, revolutioniert die kreative Ausdrucksweise und ermöglicht die Kontrolle über Szenen und Objekte. Experimentelle Ergebnisse zeigen die Wirksamkeit und Vielseitigkeit von 3DitScene bei der Bearbeitung von Szenenbildern. Der Code und die Online-Demo finden Sie auf unserer Projekt-Homepage: https://zqh0253.github.io/3DitScene/.

papers.title

papers.description

Phasen-Konsistenzmodell
Phased Consistency Model

May 28

ByFu-Yun Wang, Zhaoyang Huang, Alexander William Bergman, Dazhong Shen, Peng Gao, Michael Lingelbach, Keqiang Sun, Weikang Bian, Guanglu Song, Yu Liu, Hongsheng Li, Xiaogang Wang

2BP: 2-stufige Rückwärtspropagation
2BP: 2-Stage Backpropagation

May 28

ByChristopher Rae, Joseph K. L. Lee, James Richings

Instruct-MusicGen: Erschließung von Text-zu-Musik-Bearbeitung für Musiksprachmodelle durch Instruktionstuning
Instruct-MusicGen: Unlocking Text-to-Music Editing for Music Language Models via Instruction Tuning

May 28

ByYixiao Zhang, Yukara Ikemiya, Woosung Choi, Naoki Murata, Marco A. Martínez-Ramírez, Liwei Lin, Gus Xia, Wei-Hsiang Liao, Yuki Mitsufuji, Simon Dixon

Yuan 2.0-M32: Mischung von Experten mit Aufmerksamkeitsrouter
Yuan 2.0-M32: Mixture of Experts with Attention Router

May 28

ByShaohua Wu, Jiangang Luo, Xi Chen, Lingjun Li, Xudong Zhao, Tong Yu, Chao Wang, Yue Wang, Fei Wang, Weixu Qiao, Houbo He, Zeru Zhang, Zeyu Sun, Junxiong Mao, Chong Shen

LLaMA-NAS: Effiziente Suche nach neuronalen Architekturen für große Sprachmodelle
LLaMA-NAS: Efficient Neural Architecture Search for Large Language Models

May 28

ByAnthony Sarah, Sharath Nittur Sridhar, Maciej Szankin, Sairam Sundaresan

GFlow: Wiederherstellung einer 4D-Welt aus monokularem Video
GFlow: Recovering 4D World from Monocular Video

May 28

ByShizun Wang, Xingyi Yang, Qiuhong Shen, Zhenxiang Jiang, Xinchao Wang

VeLoRA: Speichereffizientes Training unter Verwendung von Rang-1 Untertoken-Projektionen
VeLoRA: Memory Efficient Training using Rank-1 Sub-Token Projections

May 28

ByRoy Miles, Pradyumna Reddy, Ismail Elezi, Jiankang Deng

3DitScene: Bearbeitung beliebiger Szenen mittels sprachgesteuerter entwirrter Gaußscher Splatting
3DitScene: Editing Any Scene via Language-guided Disentangled Gaussian Splatting

May 28

ByQihang Zhang, Yinghao Xu, Chaoyang Wang, Hsin-Ying Lee, Gordon Wetzstein, Bolei Zhou, Ceyuan Yang