Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir schlagen eine neuartige Inferenztechnik auf Basis eines vortrainierten Diffusionsmodells für die textbedingte Videogenerierung vor. Unser Ansatz, genannt FIFO-Diffusion, ist konzeptionell in der Lage, unendlich lange Videos ohne Training zu generieren. Dies wird erreicht, indem iterativ eine diagonale Rauschunterdrückung durchgeführt wird, die eine Reihe aufeinanderfolgender Frames mit zunehmenden Rauschniveaus in einer Warteschlange verarbeitet; unsere Methode entfernt ein vollständig rauschfreies Frame am Anfang, während sie gleichzeitig ein neues zufälliges Rauschframe am Ende einreiht. Diagonale Rauschunterdrückung ist jedoch ein zweischneidiges Schwert, da die Frames in der Nähe des Endes von saubereren Frames durch Vorwärtsreferenzierung profitieren können, aber eine solche Strategie die Diskrepanz zwischen Training und Inferenz verursacht. Daher führen wir latente Partitionierung ein, um die Kluft zwischen Training und Inferenz zu verringern, und Vorausschauende Rauschunterdrückung, um den Vorteil der Vorwärtsreferenzierung zu nutzen. Wir haben vielversprechende Ergebnisse und die Wirksamkeit der vorgeschlagenen Methoden an bestehenden Baselines zur Text-zu-Video-Generierung demonstriert.
Die Anpassung niedriger Ränge ist eine beliebte parameter-effiziente Feinabstimmungsmethode für große Sprachmodelle. In diesem Papier analysieren wir die Auswirkungen des niedrig-rangigen Updates, wie es in LoRA implementiert ist. Unsere Ergebnisse legen nahe, dass der Mechanismus des niedrig-rangigen Updates die Fähigkeit von LLMs, effektiv neues Wissen zu lernen und zu behalten, einschränken kann. Inspiriert von dieser Beobachtung schlagen wir eine neue Methode namens MoRA vor, die eine quadratische Matrix verwendet, um ein hochrangiges Update zu erreichen, während die gleiche Anzahl trainierbarer Parameter beibehalten wird. Um dies zu erreichen, führen wir entsprechende nicht-parametrische Operatoren ein, um die Eingabedimension zu reduzieren und die Ausgabedimension für die quadratische Matrix zu erhöhen. Darüber hinaus stellen diese Operatoren sicher, dass das Gewicht wieder in die LLMs integriert werden kann, was unsere Methode wie LoRA einsetzbar macht. Wir führen eine umfassende Bewertung unserer Methode über fünf Aufgaben durch: Anweisungsabstimmung, mathematisches Denken, kontinuierliches Vortraining, Gedächtnis und Vortraining. Unsere Methode übertrifft LoRA bei speicherintensiven Aufgaben und erzielt vergleichbare Leistungen bei anderen Aufgaben.
Da große Sprachmodelle (LLMs) weiterhin nach Skalierungsgesetzen wachsen, hat die Verstärkungslernmethode durch menschliches Feedback (RLHF) aufgrund ihrer herausragenden Leistung erhebliche Aufmerksamkeit erlangt. Im Gegensatz zum Vorabtraining oder Feinabstimmung eines einzelnen Modells stellen sich bei der Skalierung des Verstärkungslernens durch menschliches Feedback (RLHF) für das Training großer Sprachmodelle Koordinationsherausforderungen über vier Modelle hinweg. Wir stellen OpenRLHF vor, ein Open-Source-Framework, das eine effiziente Skalierung von RLHF ermöglicht. Im Gegensatz zu bestehenden RLHF-Frameworks, die vier Modelle auf denselben GPUs zusammenführen, gestaltet OpenRLHF die Terminplanung für Modelle jenseits von 70 Milliarden Parametern neu, indem es Ray, vLLM und DeepSpeed nutzt, um eine verbesserte Ressourcennutzung und vielfältige Schulungsansätze zu ermöglichen. Durch nahtlose Integration mit Hugging Face bietet OpenRLHF eine sofort einsatzbereite Lösung mit optimierten Algorithmen und Startskripten, die Benutzerfreundlichkeit gewährleisten. OpenRLHF implementiert RLHF, DPO, Ablehnungsabtastung und andere Ausrichtungstechniken. Zur Förderung der Entwicklung von Spitzen-Sprachmodellen ist der Code von OpenRLHF unter https://github.com/OpenLLMAI/OpenRLHF verfügbar.
Die wachsende Anzahl von parameter-effizienten Anpassungen eines großen Basissprachmodells (LLM) erfordert die Untersuchung, ob wir solche trainierten Adapter wiederverwenden können, um die Leistung für neue Aufgaben zu verbessern. Wir untersuchen, wie man am besten eine Bibliothek von Adaptern aufbaut, die auf Multi-Task-Daten basiert, und entwickeln Techniken sowohl für die Generalisierung von Nullschuss als auch für überwachte Aufgaben durch Routing in einer solchen Bibliothek. Wir bewerten bestehende Ansätze zum Aufbau dieser Bibliothek und führen modellbasiertes Clustering, MBC, ein, eine Methode, die Aufgaben basierend auf der Ähnlichkeit ihrer Adapterparameter gruppiert und indirekt die Übertragung über den Multi-Task-Datensatz optimiert. Um die Bibliothek wiederzuverwenden, präsentieren wir einen neuartigen Nullschuss-Routing-Mechanismus, Arrow, der die dynamische Auswahl der relevantesten Adapter für neue Eingaben ermöglicht, ohne dass eine erneute Schulung erforderlich ist. Wir experimentieren mit mehreren LLMs, wie Phi-2 und Mistral, auf einer Vielzahl von zurückgehaltenen Aufgaben und bestätigen, dass MBC-basierte Adapter und Arrow-Routing zu einer überlegenen Generalisierung auf neue Aufgaben führen. Wir machen Schritte hin zur Schaffung modularer, anpassungsfähiger LLMs, die mit oder besser als herkömmliches gemeinsames Training abschneiden können.
Durch die Nutzung der Fähigkeiten großer Sprachmodelle (LLMs) haben jüngste große multimodale Modelle (LMMs) eine bemerkenswerte Vielseitigkeit in der multimodalen Verständnis in offenen Welten gezeigt. Dennoch sind sie in der Regel parameterlastig und rechenintensiv, was ihre Anwendbarkeit in ressourcenbeschränkten Szenarien behindert. Zu diesem Zweck wurden nacheinander mehrere leichte LMMs vorgeschlagen, um die Fähigkeiten unter begrenzter Skala (z. B. 3B) zu maximieren. Trotz der ermutigenden Ergebnisse, die durch diese Methoden erzielt wurden, konzentrieren sich die meisten von ihnen nur auf ein oder zwei Aspekte des Designraums, und die Schlüsselentscheidungen, die die Modellfähigkeit beeinflussen, wurden noch nicht gründlich untersucht. In diesem Artikel führen wir eine systematische Studie für leichte LMMs durch, die die Aspekte der Modellarchitektur, Trainingsstrategie und Trainingsdaten umfasst. Basierend auf unseren Ergebnissen erhalten wir Imp - eine Familie von hochfähigen LMMs im Maßstab von 2B-4B. Bemerkenswert übertrifft unser Imp-3B-Modell kontinuierlich alle vorhandenen leichten LMMs ähnlicher Größe und übertrifft sogar die modernsten LMMs im Maßstab von 13B. Mit Niedrigbit-Quantisierungs- und Auflösungsreduktionstechniken kann unser Imp-Modell auf einem Qualcomm Snapdragon 8Gen3-Mobilchip mit einer hohen Inferenzgeschwindigkeit von etwa 13 Token/s eingesetzt werden.
Große Richtlinien, die auf vielfältigen Roboterdatensätzen vortrainiert sind, haben das Potenzial, das robotische Lernen zu transformieren: Anstatt neue Richtlinien von Grund auf zu trainieren, können solche Generalisten-Roboter-Richtlinien mit nur wenigen in-domain Daten feinabgestimmt werden und dennoch breit generalisieren. Um jedoch in einer Vielzahl von robotischen Lernszenarien, Umgebungen und Aufgaben weit verbreitet anwendbar zu sein, müssen solche Richtlinien mit verschiedenen Sensoren und Aktionsräumen umgehen können, eine Vielzahl von häufig verwendeten Roboterplattformen berücksichtigen und sich leicht und effizient an neue Domänen anpassen lassen. In dieser Arbeit zielen wir darauf ab, die Grundlage für die Entwicklung von Open-Source, weit verbreiteten, generalistischen Richtlinien für die robotische Manipulation zu schaffen. Als ersten Schritt stellen wir Octo vor, eine große auf Transformer basierende Richtlinie, die auf 800.000 Trajektorien aus dem Open X-Embodiment-Datensatz trainiert wurde, dem bisher größten Roboter-Manipulationsdatensatz. Sie kann über Sprachbefehle oder Zielbilder instruiert werden und kann effektiv an Roboter-Setups mit neuen sensorischen Eingaben und Aktionsräumen innerhalb weniger Stunden auf handelsüblichen Verbraucher-GPUs feinabgestimmt werden. In Experimenten auf 9 Roboterplattformen zeigen wir, dass Octo als vielseitige Richtlinieninitialisierung dient, die effektiv an neue Beobachtungs- und Aktionsräume angepasst werden kann. Wir führen auch detaillierte Ablationen von Designentscheidungen für das Octo-Modell durch, von der Architektur bis zu den Trainingsdaten, um zukünftige Forschung zur Entwicklung von generalistischen Robotermodellen zu leiten.
Transformer-Architekturen sind zu grundlegenden Strukturen für sowohl natürliche Sprache als auch Computer Vision Aufgaben geworden. Allerdings macht die hohe Rechenkosten es recht herausfordernd, sie auf ressourcenbeschränkten Geräten einzusetzen. Diese Arbeit untersucht die rechenintensiven Module des effizienten Transformers, d.h., Normalisierungsschichten und Aufmerksamkeitsmodule. LayerNorm wird häufig in Transformer-Architekturen verwendet, ist jedoch aufgrund der statistischen Berechnung während der Inferenz nicht rechenfreundlich. Der Ersatz von LayerNorm durch die effizientere BatchNorm im Transformer führt jedoch oft zu schlechterer Leistung und einem Zusammenbruch im Training. Um dieses Problem zu lösen, schlagen wir eine neuartige Methode namens PRepBN vor, um LayerNorm schrittweise durch reparametrisierte BatchNorm im Training zu ersetzen. Darüber hinaus schlagen wir ein vereinfachtes lineares Aufmerksamkeitsmodul (SLA) vor, das einfach, aber effektiv ist, um starke Leistung zu erzielen. Umfangreiche Experimente zur Bildklassifizierung sowie Objekterkennung zeigen die Wirksamkeit unserer vorgeschlagenen Methode. Zum Beispiel erreicht unser SLAB-Swin eine Top-1-Genauigkeit von 83,6% auf ImageNet-1K mit einer Latenz von 16,2 ms, was 2,4 ms weniger ist als bei Flatten-Swin mit 0,1% höherer Genauigkeit. Wir haben unsere Methode auch für die Sprachmodellierungsaufgabe evaluiert und vergleichbare Leistung und niedrigere Latenz erzielt. Die Codes sind öffentlich verfügbar unter https://github.com/xinghaochen/SLAB und https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/SLAB.
In dieser Arbeit schlagen wir eine neuartige Methode namens Trajectory Score Matching (TSM) vor, die darauf abzielt, das Problem der inkonsistenten Pseudo-Grundwahrheit zu lösen, das durch den kumulierten Fehler beim Interval Score Matching (ISM) im Zusammenhang mit dem Umkehrprozess der Denoising Diffusion Implicit Models (DDIM) verursacht wird. Im Gegensatz zu ISM, das den Umkehrprozess von DDIM zur Berechnung auf einem einzigen Pfad übernimmt, nutzt unsere TSM-Methode den Umkehrprozess von DDIM, um zwei Pfade vom gleichen Ausgangspunkt für die Berechnung zu generieren. Da beide Pfade vom gleichen Ausgangspunkt starten, kann TSM im Vergleich zu ISM den kumulierten Fehler reduzieren und somit das Problem der inkonsistenten Pseudo-Grundwahrheit lindern. TSM verbessert die Stabilität und Konsistenz der generierten Pfade des Modells während des Destillationsprozesses. Wir zeigen dies experimentell und zeigen weiterhin, dass ISM ein Spezialfall von TSM ist. Darüber hinaus verwenden wir zur Optimierung des aktuellen mehrstufigen Optimierungsprozesses von hochauflösendem Text zur 3D-Generierung Stable Diffusion XL als Leitfaden. Als Reaktion auf die Probleme der abnormalen Replikation und Aufspaltung, die durch instabile Gradienten während des 3D-Gaussian-Splatting-Prozesses bei Verwendung von Stable Diffusion XL verursacht werden, schlagen wir eine Pixel-für-Pixel-Gradientenbeschneidungsmethode vor. Umfangreiche Experimente zeigen, dass unser Modell in Bezug auf visuelle Qualität und Leistung signifikant die aktuellen Modelle übertrifft. Code: https://github.com/xingy038/Dreamer-XL.