Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Generative große Sprachmodelle (LLMs) haben zahlreiche neue Möglichkeiten eröffnet, doch aufgrund ihrer erheblichen Rechenanforderungen bleibt ihre allgegenwärtige Nutzung eine Herausforderung. Einige der nützlichsten Anwendungen erfordern die Verarbeitung einer großen Anzahl von Proben gleichzeitig und die Nutzung langer Kontexte, was den Speicherkommunikationsbedarf der Modelle erheblich erhöht. Wir stellen SparQ Attention vor, eine Technik zur Steigerung des Inferenzdurchsatzes von LLMs, indem die Speicherbandbreitenanforderungen innerhalb der Attention-Blöcke durch selektives Abrufen des gespeicherten Verlaufs reduziert werden. Unsere vorgeschlagene Technik kann direkt auf handelsübliche LLMs während der Inferenz angewendet werden, ohne dass Änderungen am Pre-Training-Setup oder zusätzliches Fine-Tuning erforderlich sind. Wir zeigen, wie SparQ Attention die Speicherbandbreitenanforderungen für Attention um das Achtfache reduzieren kann, ohne Genauigkeitsverluste, indem wir Llama 2 und Pythia Modelle auf einer Vielzahl von Downstream-Aufgaben evaluieren.
In diesem Artikel präsentieren wir DreaMoving, ein diffusionsbasiertes, steuerbares Videogenerierungsframework zur Erstellung hochwertiger, personalisierter Tanzvideos von Menschen. Konkret kann DreaMoving, basierend auf Zielidentitäten und Haltungssequenzen, ein Video generieren, in dem die Zielidentität überall getrieben durch die Haltungssequenzen tanzt. Zu diesem Zweck schlagen wir ein Video ControlNet für die Bewegungssteuerung und einen Content Guider zur Identitätsbewahrung vor. Das vorgeschlagene Modell ist einfach zu bedienen und kann an die meisten stilisierten Diffusionsmodelle angepasst werden, um vielfältige Ergebnisse zu erzielen. Die Projektseite ist verfügbar unter https://dreamoving.github.io/dreamoving.
Die meisten Forschungen zur 3D-Generierung konzentrieren sich darauf, 2D-Foundation-Modelle in den 3D-Raum zu projizieren, entweder durch die Minimierung des 2D-Score-Distillation-Sampling (SDS)-Verlusts oder durch Feinabstimmung auf Multi-View-Datensätze. Ohne explizite 3D-Priors führen diese Methoden oft zu geometrischen Anomalien und Inkonsistenzen zwischen den Ansichten. Kürzlich haben Forscher versucht, die Authentizität von 3D-Objekten zu verbessern, indem sie direkt auf 3D-Datensätzen trainieren, allerdings auf Kosten einer qualitativ minderwertigen Texturgenerierung aufgrund der begrenzten Texturvielfalt in 3D-Datensätzen. Um die Vorteile beider Ansätze zu nutzen, schlagen wir Bidirectional Diffusion (BiDiff) vor, ein einheitliches Framework, das sowohl einen 3D- als auch einen 2D-Diffusionsprozess integriert, um jeweils die 3D-Treue und die 2D-Texturreichhaltigkeit zu bewahren. Darüber hinaus, da eine einfache Kombination zu inkonsistenten Generierungsergebnissen führen kann, verbinden wir sie zusätzlich mit einer neuartigen bidirektionalen Führung. Zudem kann unsere Methode als Initialisierung für optimierungsbasierte Modelle verwendet werden, um die Qualität des 3D-Modells und die Effizienz der Optimierung weiter zu verbessern, wodurch der Generierungsprozess von 3,4 Stunden auf 20 Minuten reduziert wird. Experimentelle Ergebnisse haben gezeigt, dass unser Modell eine hochwertige, vielfältige und skalierbare 3D-Generierung erreicht. Projektwebsite: https://bidiff.github.io/.
Wir stellen einen Ansatz vor, um Text-zu-Video-Generierungsmodelle mit individuellen Bewegungen zu erweitern und ihre Fähigkeiten über die in den ursprünglichen Trainingsdaten dargestellten Bewegungen hinaus auszubauen. Indem wir einige Video-Beispiele, die spezifische Bewegungen demonstrieren, als Eingabe nutzen, lernt unsere Methode die Bewegungsmuster der Eingabe und verallgemeinert sie für verschiedene, textbeschriebene Szenarien. Unsere Beiträge sind dreifach. Erstens, um unsere Ergebnisse zu erzielen, feintunen wir ein bestehendes Text-zu-Video-Modell, um eine neuartige Abbildung zwischen der dargestellten Bewegung in den Eingabebeispielen und einem neuen eindeutigen Token zu erlernen. Um eine Überanpassung an die neue benutzerdefinierte Bewegung zu vermeiden, führen wir einen Ansatz zur Regularisierung über Videos ein. Zweitens, indem wir die Bewegungs-Priors eines vortrainierten Modells nutzen, kann unsere Methode neue Videos erzeugen, die mehrere Personen zeigen, die die benutzerdefinierte Bewegung ausführen, und kann die Bewegung in Kombination mit anderen Bewegungen aufrufen. Darüber hinaus erstreckt sich unser Ansatz auf die multimodale Anpassung von Bewegung und Aussehen individueller Subjekte, wodurch die Generierung von Videos mit einzigartigen Charakteren und unterschiedlichen Bewegungen ermöglicht wird. Drittens, um unsere Methode zu validieren, führen wir einen Ansatz zur quantitativen Bewertung der gelernten benutzerdefinierten Bewegung ein und führen eine systematische Ablationsstudie durch. Wir zeigen, dass unsere Methode frühere, auf das Aussehen basierende Anpassungsansätze deutlich übertrifft, wenn sie auf die Aufgabe der Bewegungsanpassung erweitert wird.
Mit den jüngsten Fortschritten bei großen Sprachmodellen haben sich Methoden wie Chain-of-Thought-Prompting, die Denkketten hervorrufen, als wirksam erwiesen, um Ergebnisse bei Aufgaben, die logisches Denken erfordern, zu verbessern. Dennoch stellen Aufgaben, die mehrere Schritte des logischen Schließens erfordern, nach wie vor erhebliche Herausforderungen für state-of-the-art Modelle dar. Inspiriert vom Beam-Search-Algorithmus schlagen wir PathFinder vor, einen auf Baum-Suche basierenden Ansatz zur Generierung von Denkpfaden. Dieser Ansatz fördert vielfältige Verzweigungen und mehrstufiges logisches Schließen durch die Integration von dynamischer Dekodierung, ermöglicht durch verschiedene Sampling-Methoden und Parameter. Durch eingeschränktes logisches Schließen integriert PathFinder neuartige Qualitätsbeschränkungen, Beschneidungs- und Erkundungsmethoden, um die Effizienz und Qualität der Generierung zu verbessern. Darüber hinaus umfasst es Bewertungs- und Rangfolgefunktionen, um die Kandidatenauswahl zu optimieren. Unser Ansatz übertrifft konkurrierende Baselines bei drei komplexen arithmetischen und alltagslogischen Denkaufgaben im Durchschnitt um 6 %. Unser Modell generalisiert gut auf längere, unbekannte Denkketten, was ähnliche Komplexitäten wie Beam Search mit großen Verzweigungsfaktoren widerspiegelt.
Denoising-Diffusionsmodelle haben herausragende Ergebnisse in der 2D-Bildgenerierung gezeigt, doch bleibt es eine Herausforderung, diesen Erfolg in der 3D-Formgenerierung zu wiederholen. In diesem Artikel schlagen wir vor, Multi-View-Tiefeninformationen zu nutzen, die komplexe 3D-Formen in einem 2D-Datenformat darstellen, das einfach zu denoisen ist. Wir kombinieren diese Darstellung mit einem Diffusionsmodell, MVDD, das in der Lage ist, hochwertige dichte Punktwolken mit 20.000+ Punkten und fein detaillierten Strukturen zu generieren. Um die 3D-Konsistenz in Multi-View-Tiefeninformationen zu gewährleisten, führen wir eine epipolare Liniensegment-Attention ein, die den Denoising-Schritt für eine Ansicht anhand ihrer benachbarten Ansichten konditioniert. Zusätzlich wird ein Tiefenfusionsmodul in die Diffusionsschritte integriert, um die Ausrichtung der Tiefenkarten weiter zu sichern. Wenn MVDD mit Oberflächenrekonstruktion erweitert wird, kann es auch hochwertige 3D-Meshes erzeugen. Darüber hinaus zeichnet sich MVDD in anderen Aufgaben wie der Tiefenvervollständigung aus und kann als 3D-Prior dienen, was viele nachgelagerte Aufgaben, wie z.B. GAN-Inversion, erheblich verbessert. State-of-the-Art-Ergebnisse aus umfangreichen Experimenten demonstrieren die hervorragende Fähigkeit von MVDD in der 3D-Formgenerierung, Tiefenvervollständigung und sein Potenzial als 3D-Prior für nachgelagerte Aufgaben.
Wir präsentieren EE-LLM, ein Framework für das großskalige Training und die Inferenz von Early-Exit Large Language Models (LLMs). Während aktuelle Arbeiten erste Hinweise auf die Wirksamkeit von Early Exiting zur Beschleunigung der LLM-Inferenz gezeigt haben, macht EE-LLM einen grundlegenden Schritt zur Skalierung von Early-Exit-LLMs, indem es deren Training und Inferenz mit massiver 3D-Parallelität unterstützt. Basierend auf Megatron-LM implementiert EE-LLM eine Vielzahl von algorithmischen Innovationen und Leistungsoptimierungen, die speziell auf Early Exiting zugeschnitten sind, darunter eine leichtgewichtige Methode, die die Backpropagation für das Early-Exit-Trainingsziel mit Pipeline-Parallelität erleichtert, Techniken zur Nutzung von Leerlaufressourcen im ursprünglichen Pipeline-Zeitplan für Berechnungen im Zusammenhang mit Early-Exit-Schichten sowie zwei Ansätze für die Early-Exit-Inferenz, die mit KV-Caching für autoregressive Generierung kompatibel sind. Unsere analytische und empirische Studie zeigt, dass EE-LLM eine hohe Trainingseffizienz mit vernachlässigbarem Rechenaufwand im Vergleich zum Standard-LLM-Training erreicht sowie eine herausragende Beschleunigung der Inferenz ohne Einbußen bei der Ausgabequalität. Um weitere Forschung und die Verbreitung zu fördern, veröffentlichen wir EE-LLM unter https://github.com/pan-x-c/EE-LLM.
Instruktionsfolgende Vision-Sprache-Modelle (VL-Modelle) bieten eine flexible Schnittstelle, die eine breite Palette multimodaler Aufgaben in einem Zero-Shot-Szenario unterstützt. Schnittstellen, die auf vollständigen Bildern operieren, ermöglichen es dem Benutzer jedoch nicht direkt, auf bestimmte Bildregionen zu „zeigen“ und zuzugreifen. Diese Fähigkeit ist nicht nur wichtig, um referenzbasierte VL-Benchmarks zu unterstützen, sondern auch für praktische Anwendungen, die eine präzise Bild-internes Denken erfordern. Wir entwickeln lokalisierte visuelle Commonsense-Modelle, die es Benutzern ermöglichen, (mehrere) Regionen als Eingabe anzugeben. Wir trainieren unser Modell, indem wir lokalisierte Commonsense-Informationen aus einem großen Sprachmodell (LLM) sammeln: Konkret fordern wir ein LLM auf, Commonsense-Wissen basierend auf einer globalen wörtlichen Bildbeschreibung und einer lokalen wörtlichen Regionsbeschreibung zu sammeln, die automatisch von einer Reihe von VL-Modellen generiert wird. Mit einem separat trainierten Kritiker-Modell, das hochwertige Beispiele auswählt, stellen wir fest, dass das Training auf dem lokalisierten Commonsense-Korpus bestehende VL-Modelle erfolgreich destillieren kann, um eine Referenz-als-Eingabe-Schnittstelle zu unterstützen. Empirische Ergebnisse und menschliche Bewertungen in einem Zero-Shot-Setup zeigen, dass unsere Destillationsmethode im Vergleich zu einem Baseline-Ansatz, bei dem ein generierter Referenzausdruck an ein LLM übergeben wird, präzisere VL-Modelle des Denkens erzeugt.