Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
In jüngster Zeit haben Fortschritte bei Videoautoencodern (Video AEs) die Qualität und Effizienz der Videogenerierung erheblich verbessert. In diesem Artikel schlagen wir einen neuartigen und kompakten Videoautoencoder namens VidTwin vor, der Videos in zwei unterschiedliche latente Räume aufteilt: Struktur-latente Vektoren, die den Gesamtinhalt und die globale Bewegung erfassen, und Dynamik-latente Vektoren, die feine Details und schnelle Bewegungen darstellen. Speziell nutzt unser Ansatz ein Encoder-Decoder-Grundgerüst, das mit zwei Untermodulen zur Extraktion dieser latenten Räume erweitert ist. Das erste Untermodul verwendet ein Q-Former, um niederfrequente Bewegungstrends zu extrahieren, gefolgt von Downsampling-Blöcken, um redundante Inhaltsdetails zu entfernen. Das zweite Mittel berechnet den Durchschnitt der latenten Vektoren entlang der räumlichen Dimension, um schnelle Bewegungen einzufangen. Umfangreiche Experimente zeigen, dass VidTwin eine hohe Kompressionsrate von 0,20% bei hoher Rekonstruktionsqualität (PSNR von 28,14 auf dem MCL-JCV-Datensatz) erreicht und in nachgelagerten generativen Aufgaben effizient und effektiv arbeitet. Darüber hinaus zeigt unser Modell Erklärbarkeit und Skalierbarkeit und ebnet den Weg für zukünftige Forschung im Bereich der latenten Repräsentation und Generierung von Videos. Unser Code wurde unter https://github.com/microsoft/VidTok/tree/main/vidtwin veröffentlicht.
Die effektive Vorabtrainierung großer Sprachmodelle (LLMs) war aufgrund des enormen Ressourcenbedarfs und der Komplexität der technischen Prozesse eine Herausforderung. Dieses Papier präsentiert einen detaillierten technischen Bericht über YuLan-Mini, ein hochleistungsfähiges Basismodell mit 2,42 Milliarden Parametern, das Spitzenleistungen unter Modellen ähnlicher Parametergröße erzielt. Unser Vorabtrainierungsansatz konzentriert sich darauf, die Trainierungseffektivität durch drei Schlüsseltechniken zu verbessern: ein ausgeklügeltes Daten-Pipeline, die Datenbereinigung mit Datenplanungsstrategien kombiniert, eine robuste Optimierungsmethode zur Reduzierung von Trainingsinstabilität und ein effektiver Ansatz zur Anwendung von Annealing, der gezielte Datenauswahl und Training mit langem Kontext integriert. Bemerkenswerterweise erreicht YuLan-Mini, trainiert mit 1,08 Billionen Tokens, eine Leistung, die mit führenden Modellen der Branche vergleichbar ist, die deutlich mehr Daten erfordern. Um die Reproduktion zu erleichtern, veröffentlichen wir alle Details zur Datenzusammensetzung für jede Trainingsphase. Projektdetails sind unter folgendem Link abrufbar: https://github.com/RUC-GSAI/YuLan-Mini.
In dieser Arbeit bieten wir eine gründliche Untersuchung von gisträger Kontextkompressionsmethoden zur Verbesserung der Verarbeitung von langem Kontext in großen Sprachmodellen. Wir konzentrieren uns auf zwei zentrale Fragen: (1) Wie gut können diese Methoden vollständige Aufmerksamkeitsmodelle ersetzen? und (2) Welche potenziellen Fehlermuster entstehen durch die Kompression? Durch umfangreiche Experimente zeigen wir, dass gisträger Kompression nahezu verlustfreie Leistungen bei Aufgaben wie generierungsgesteigerter Rückgewinnung und Langdokument-F&A erzielen kann, jedoch Herausforderungen bei Aufgaben wie synthetischer Rückruf gegenübersteht. Darüber hinaus identifizieren wir drei zentrale Fehlermuster: verloren durch die Grenze, verloren bei Überraschung und verloren auf dem Weg. Um diese Probleme zu mildern, schlagen wir zwei effektive Strategien vor: feinkörniges Autoencoding, das die Rekonstruktion von ursprünglichen Token-Informationen verbessert, und segmentweise Token-Wichtigkeitsschätzung, die die Optimierung basierend auf Token-Abhängigkeiten anpasst. Unsere Arbeit liefert wertvolle Einblicke in das Verständnis von gisträger Token-basierter Kontextkompression und bietet praktische Strategien zur Verbesserung der Kompressionsfähigkeiten.
Durch Fortschritte in grundlegenden und Vision-Sprach-Modellen sowie effektiven Feinabstimmungstechniken wurden eine Vielzahl von sowohl allgemeinen als auch speziellen Modellen für verschiedene visuelle Aufgaben entwickelt. Trotz der Flexibilität und Zugänglichkeit dieser Modelle ist kein einzelnes Modell in der Lage, alle Aufgaben und/oder Anwendungen zu bewältigen, die von potenziellen Benutzern vorgestellt werden könnten. Aktuelle Ansätze wie visuelle Programmierung und multimodale LLMs mit integrierten Tools zielen darauf ab, komplexe visuelle Aufgaben mittels Programmsynthese zu bewältigen. Diese Ansätze übersehen jedoch Benutzerbeschränkungen (z. B. Leistungs-/Rechenanforderungen), erzeugen lösungsspezifische Lösungen zur Testzeit, die schwer zu implementieren sind, und erfordern manchmal Low-Level-Anweisungen, die über die Fähigkeiten eines unerfahrenen Benutzers hinausgehen könnten. Um diese Einschränkungen zu adressieren, stellen wir MMFactory vor, ein universelles Framework, das Modell- und Metriken-Routing-Komponenten umfasst, die wie eine Lösungssuchmaschine über verschiedene verfügbare Modelle agieren. Basierend auf einer Aufgabenbeschreibung und einigen Beispielein- und -ausgabepaaren sowie (optional) Ressourcen- und/oder Leistungsbeschränkungen kann MMFactory eine vielfältige Auswahl an programmatischen Lösungen vorschlagen, indem es visio-linguale Tools aus seinem Modell-Repository instanziiert und kombiniert. Neben der Synthese dieser Lösungen schlägt MMFactory auch Metriken und Benchmarks für Leistungs-/Ressourceneigenschaften vor, die es Benutzern ermöglichen, eine Lösung auszuwählen, die ihren einzigartigen Designbeschränkungen entspricht. Aus technischer Sicht haben wir auch einen auf einem Ausschuss basierenden Lösungsvorschlag eingeführt, der auf mehragentenbasierten LLM-Gesprächen beruht, um ausführbare, vielfältige, universelle und robuste Lösungen für den Benutzer zu generieren. Experimentelle Ergebnisse zeigen, dass MMFactory vorhandene Methoden übertrifft, indem es maßgeschneiderte Lösungen für Benutzerproblem-Spezifikationen liefert. Die Projektseite ist unter https://davidhalladay.github.io/mmfactory_demo verfügbar.
Sequenzielle Empfehlungssysteme (SR) haben sich in den letzten zehn Jahren erheblich weiterentwickelt, indem sie von traditionellem kollaborativem Filtern auf Deep-Learning-Ansätze und kürzlich auf große Sprachmodelle (LLMs) übergegangen sind. Während die Verwendung von LLMs bedeutende Fortschritte vorangetrieben hat, fehlt es diesen Modellen grundsätzlich an kollaborativen Filterinformationen, da sie hauptsächlich auf textuellen Inhalten basieren und andere Modalitäten vernachlässigen, was zu einer suboptimalen Empfehlungsleistung führt. Um diese Einschränkung zu beheben, schlagen wir Molar vor, ein Multimodales großes Sprachsequenzielles Empfehlungsframework, das mehrere Inhaltsmodalitäten mit ID-Informationen integriert, um kollaborative Signale effektiv zu erfassen. Molar verwendet ein MLLM, um vereinheitlichte Artikelrepräsentationen aus sowohl textuellen als auch nicht-textuellen Daten zu generieren, was eine umfassende multimodale Modellierung ermöglicht und die Artikel-Einbettungen bereichert. Darüber hinaus integriert es kollaborative Filterungssignale durch einen Post-Alignment-Mechanismus, der Benutzerrepräsentationen aus inhaltsbasierten und ID-basierten Modellen abgleicht, um eine präzise Personalisierung und robuste Leistung zu gewährleisten. Durch die nahtlose Kombination von multimodalen Inhalten mit kollaborativen Filterungseinblicken erfasst Molar sowohl Benutzerinteressen als auch kontextuelle Semantik, was zu einer überlegenen Empfehlungsgenauigkeit führt. Umfangreiche Experimente bestätigen, dass Molar signifikant traditionelle und LLM-basierte Baselines übertrifft und damit seine Stärke bei der Nutzung von multimodalen Daten und kollaborativen Signalen für sequenzielle Empfehlungsaufgaben unterstreicht. Der Quellcode ist unter https://anonymous.4open.science/r/Molar-8B06/ verfügbar.