Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die zunehmende Nachfrage nach hochwertiger Videogenerierung aus textuellen Beschreibungen hat erhebliche Forschungsaktivitäten in diesem Bereich vorangetrieben. In dieser Arbeit stellen wir MagicVideo-V2 vor, das das Text-zu-Bild-Modell, den Videobewegungsgenerator, das Referenzbild-Einbettungsmodul und das Frame-Interpolationsmodul in eine End-to-End-Videogenerierungspipeline integriert. Dank dieser Architekturdesigns kann MagicVideo-V2 ästhetisch ansprechende, hochauflösende Videos mit bemerkenswerter Detailtreue und Flüssigkeit erzeugen. Es zeigt eine überlegene Leistung gegenüber führenden Text-zu-Video-Systemen wie Runway, Pika 1.0, Morph, Moon Valley und dem Stable Video Diffusion-Modell in groß angelegten Benutzerbewertungen.
Wir stellen MAGNeT vor, eine maskierte generative Sequenzmodellierungsmethode, die direkt über mehrere Ströme von Audio-Tokens arbeitet. Im Gegensatz zu früheren Arbeiten besteht MAGNeT aus einem einstufigen, nicht-autoregressiven Transformer. Während des Trainings sagen wir Abschnitte von maskierten Tokens voraus, die von einem Maskierungsplaner stammen, während wir während der Inferenz die Ausgabesequenz schrittweise in mehreren Dekodierungsschritten konstruieren. Um die Qualität des generierten Audios weiter zu verbessern, führen wir eine neuartige Rescoring-Methode ein, bei der wir ein externes, vortrainiertes Modell nutzen, um Vorhersagen von MAGNeT neu zu bewerten und zu sortieren, die dann für spätere Dekodierungsschritte verwendet werden. Schließlich untersuchen wir eine hybride Version von MAGNeT, bei der wir zwischen autoregressiven und nicht-autoregressiven Modellen verschmelzen, um die ersten paar Sekunden auf autoregressive Weise zu generieren, während der Rest der Sequenz parallel dekodiert wird. Wir demonstrieren die Effizienz von MAGNeT für die Aufgaben der Text-zu-Musik- und Text-zu-Audio-Generierung und führen eine umfangreiche empirische Evaluation durch, die sowohl objektive Metriken als auch menschliche Studien berücksichtigt. Der vorgeschlagene Ansatz ist mit den evaluierten Baselines vergleichbar, während er signifikant schneller ist (x7 schneller als die autoregressive Baseline). Durch Ablationsstudien und Analysen beleuchten wir die Bedeutung jeder der Komponenten, die MAGNeT ausmachen, und weisen auf die Kompromisse zwischen autoregressiver und nicht-autoregressiver Modellierung hin, wobei Latenz, Durchsatz und Generierungsqualität berücksichtigt werden. Beispiele sind auf unserer Demo-Seite verfügbar: https://pages.cs.huji.ac.il/adiyoss-lab/MAGNeT.
Lineare Aufmerksamkeit ist ein effizienter Aufmerksamkeitsmechanismus, der sich kürzlich als vielversprechende Alternative zur konventionellen Softmax-Aufmerksamkeit herausgestellt hat. Mit der Fähigkeit, Token in linearer Rechenkomplexität zu verarbeiten, kann lineare Aufmerksamkeit theoretisch Sequenzen unbegrenzter Länge verarbeiten, ohne die Geschwindigkeit zu opfern, d. h. sie hält eine konstante Trainingsgeschwindigkeit für verschiedene Sequenzlängen bei festem Speicherverbrauch aufrecht. Aufgrund des Problems mit der kumulativen Summation (cumsum) können aktuelle lineare Aufmerksamkeitsalgorithmen jedoch ihren theoretischen Vorteil in einem kausalen Setting nicht demonstrieren. In diesem Artikel präsentieren wir Lightning Attention-2, die erste Implementierung linearer Aufmerksamkeit, die es ermöglicht, die theoretischen Rechenvorteile der linearen Aufmerksamkeit zu realisieren. Um dies zu erreichen, nutzen wir den Gedanken des Tiling, bei dem die intra-block und inter-block Komponenten in der Berechnung der linearen Aufmerksamkeit separat behandelt werden. Insbesondere verwenden wir den konventionellen Aufmerksamkeitsberechnungsmechanismus für die intra-blocks und wenden lineare Aufmerksamkeits-Kernel-Tricks für die inter-blocks an. Eine Tiling-Technik wird sowohl im Vorwärts- als auch im Rückwärtsverfahren eingesetzt, um die Vorteile der GPU-Hardware voll auszuschöpfen. Wir implementieren unseren Algorithmus in Triton, um ihn IO-bewusst und hardwarefreundlich zu gestalten. Verschiedene Experimente werden mit unterschiedlichen Modellgrößen und Sequenzlängen durchgeführt. Lightning Attention-2 behält eine konsistente Trainings- und Inferenzgeschwindigkeit unabhängig von der Eingabesequenzlänge bei und ist deutlich schneller als andere Aufmerksamkeitsmechanismen. Der Quellcode ist verfügbar unter https://github.com/OpenNLPLab/lightning-attention.
Tabellenbasiertes Reasoning mit großen Sprachmodellen (LLMs) ist ein vielversprechender Ansatz, um viele Aufgaben im Bereich des Tabellenverständnisses zu bewältigen, wie z. B. tabellenbasierte Fragebeantwortung und Faktenüberprüfung. Im Vergleich zu generischem Reasoning erfordert tabellenbasiertes Reasoning die Extraktion zugrunde liegender Semantik sowohl aus freiformulierten Fragen als auch aus semi-strukturierten Tabellendaten. Chain-of-Thought und ähnliche Ansätze integrieren die Reasoning-Kette in Form von textuellen Kontexten, aber es bleibt eine offene Frage, wie Tabellendaten effektiv in die Reasoning-Kette einbezogen werden können. Wir schlagen das Chain-of-Table-Framework vor, bei dem Tabellendaten explizit in der Reasoning-Kette als Stellvertreter für Zwischengedanken verwendet werden. Konkret leiten wir LLMs durch In-Context-Learning an, um iterativ Operationen zu generieren und die Tabelle zu aktualisieren, um eine tabellenbasierte Reasoning-Kette darzustellen. LLMs können somit dynamisch die nächste Operation basierend auf den Ergebnissen der vorherigen planen. Diese kontinuierliche Weiterentwicklung der Tabelle bildet eine Kette, die den Reasoning-Prozess für ein gegebenes tabellenbasiertes Problem zeigt. Die Kette trägt strukturierte Informationen der Zwischenergebnisse, was genauere und zuverlässigere Vorhersagen ermöglicht. Chain-of-Table erreicht neue State-of-the-Art-Leistungen auf den Benchmarks WikiTQ, FeTaQA und TabFact über mehrere LLM-Auswahlmöglichkeiten hinweg.
Ein Sprungschnitt führt zu einer abrupten, manchmal unerwünschten Veränderung im Seherlebnis. Wir präsentieren ein neuartiges Framework zur Glättung solcher Sprungschnitte im Kontext von Talking-Head-Videos. Dabei nutzen wir das Erscheinungsbild der Person aus anderen Quellbildern des Videos und kombinieren es mit einer mittleren Repräsentationsebene, die durch DensePose-Keypoints und Gesichtslandmarken gesteuert wird. Um Bewegung zu erzeugen, interpolieren wir die Keypoints und Landmarken zwischen den Endbildern um den Schnitt herum. Anschließend verwenden wir ein Bildübersetzungsnetzwerk, das aus den Keypoints und Quellbildern Pixel synthetisiert. Da Keypoints Fehler enthalten können, schlagen wir ein cross-modales Aufmerksamkeitsschema vor, um für jeden Keypoint die am besten geeignete Quelle aus mehreren Optionen auszuwählen. Durch die Nutzung dieser mittleren Repräsentationsebene erzielt unsere Methode bessere Ergebnisse als ein starkes Videointerpolations-Baseline. Wir demonstrieren unsere Methode anhand verschiedener Sprungschnitte in Talking-Head-Videos, wie dem Entfernen von Füllwörtern, Pausen und sogar zufälligen Schnitten. Unsere Experimente zeigen, dass wir nahtlose Übergänge erreichen können, selbst in anspruchsvollen Fällen, in denen der Talking Head sich im Sprungschnitt dreht oder sich stark bewegt.
Vision- und Vision-Language-Anwendungen von neuronalen Netzen, wie Bildklassifizierung und Bildbeschriftung, basieren auf groß angelegten annotierten Datensätzen, deren Erstellung aufwendige Datenerfassungsprozesse erfordert. Dieser zeitintensive Aufwand behindert die Entstehung groß angelegter Datensätze und beschränkt Forscher und Praktiker auf eine begrenzte Auswahl. Daher suchen wir nach effizienteren Methoden zur Sammlung und Annotation von Bildern. Frühere Initiativen haben Bildbeschreibungen aus HTML-Alt-Texten und Social-Media-Beiträgen gesammelt, doch diese Datenquellen leiden unter Rauschen, Sparsity oder Subjektivität. Aus diesem Grund wenden wir uns kommerziellen E-Commerce-Websites zu, deren Daten drei Kriterien erfüllen: Sauberkeit, Informationsgehalt und Flüssigkeit. Wir stellen den Let's Go Shopping (LGS)-Datensatz vor, einen groß angelegten öffentlichen Datensatz mit 15 Millionen Bild-Beschreibungs-Paaren von öffentlich zugänglichen E-Commerce-Websites. Im Vergleich zu bestehenden allgemeinen Datensätzen konzentrieren sich die LGS-Bilder auf das Vordergrundobjekt und haben weniger komplexe Hintergründe. Unsere Experimente mit LGS zeigen, dass auf bestehenden Benchmark-Datensätzen trainierte Klassifikatoren nicht ohne Weiteres auf E-Commerce-Daten verallgemeinern können, während spezifische selbstüberwachte visuelle Feature-Extraktoren besser verallgemeinern. Darüber hinaus machen die hochwertigen, auf E-Commerce ausgerichteten Bilder und die bimodale Natur von LGS es vorteilhaft für Vision-Language-bimodale Aufgaben: LGS ermöglicht es Bildbeschreibungsmodellen, reichhaltigere Beschreibungen zu generieren, und hilft Text-zu-Bild-Generierungsmodellen, E-Commerce-Stiltransfers zu erreichen.
Faktische Fragen können in der Regel auf verschiedenen Detaillierungsstufen korrekt beantwortet werden. Zum Beispiel sind sowohl „4. August 1961“ als auch „1961“ korrekte Antworten auf die Frage „Wann wurde Barack Obama geboren?“. Standardisierte Evaluierungsprotokolle für Frage-Antwort-Systeme (QA) berücksichtigen dies jedoch nicht explizit und vergleichen eine vorhergesagte Antwort nur mit Antworten einer einzigen Detaillierungsstufe. In dieser Arbeit schlagen wir GRANOLA QA vor, eine neuartige Evaluierungsumgebung, in der eine vorhergesagte Antwort hinsichtlich Genauigkeit und Informationsgehalt anhand einer Menge von Antworten mit mehreren Detaillierungsstufen bewertet wird. Wir präsentieren eine einfache Methode zur Anreicherung bestehender Datensätze mit Antworten auf verschiedenen Detaillierungsstufen und erstellen GRANOLA-EQ, eine Version des EntityQuestions-Datensatzes mit mehreren Detaillierungsstufen. Wir evaluieren eine Reihe von Dekodierungsmethoden auf GRANOLA-EQ, darunter einen neuen Algorithmus namens Decoding with Response Aggregation (DRAG), der darauf abzielt, die Antwortdetaillierung mit der Unsicherheit des Modells abzustimmen. Unsere Experimente zeigen, dass große Sprachmodelle mit Standarddekodierung dazu neigen, spezifische Antworten zu generieren, die oft falsch sind. Im Gegensatz dazu führt DRAG bei der Bewertung anhand von Antworten mit mehreren Detaillierungsstufen zu einer durchschnittlichen Steigerung der Genauigkeit um fast 20 Punkte, die bei seltenen Entitäten weiter ansteigt. Insgesamt zeigt dies, dass standardmäßige Evaluierungs- und Dekodierungsschemata das in Sprachmodellen (LMs) enthaltene Wissen möglicherweise erheblich unterschätzen.
Trotz des Potenzials von Diffusionsmodellen in der Sprachverbesserung war ihr Einsatz in der Akustischen Echokompensation (AEC) bisher eingeschränkt. In diesem Artikel schlagen wir DI-AEC vor, das einen neuartigen, auf Diffusion basierenden stochastischen Regenerationsansatz speziell für AEC einführt. Darüber hinaus präsentieren wir FADI-AEC, ein schnelles, score-basiertes Diffusions-AEC-Framework, das den Rechenaufwand reduziert und somit für Edge-Geräte geeignet ist. Es zeichnet sich dadurch aus, dass das Score-Modell nur einmal pro Frame ausgeführt wird, was zu einer erheblichen Steigerung der Verarbeitungseffizienz führt. Zusätzlich führen wir eine neuartige Rauschgenerierungstechnik ein, bei der Fernsignale genutzt werden, wobei sowohl Fern- als auch Nahsignale einbezogen werden, um die Genauigkeit des Score-Modells zu verbessern. Wir testen unsere vorgeschlagene Methode auf dem ICASSP2023 Microsoft Deep Echo Cancellation Challenge Evaluationsdatensatz, wo unsere Methode einige der End-to-End-Methoden und andere auf Diffusion basierende Echokompensationsmethoden übertrifft.