papers.description
Während Transformers die Hauptarchitektur hinter dem Erfolg des Deep Learning im Bereich des Sprachmodellierens waren, haben Zustandsraummodelle (SSMs) wie Mamba kürzlich gezeigt, dass sie Transformers in kleinerem bis mittlerem Maßstab erreichen oder übertreffen können. Wir zeigen, dass diese Modellfamilien tatsächlich eng miteinander verwandt sind und ein reichhaltiges Rahmenwerk theoretischer Verbindungen zwischen SSMs und Varianten der Aufmerksamkeit entwickeln, die durch verschiedene Zerlegungen einer gut erforschten Klasse strukturierte semiseperabler Matrizen verbunden sind. Unser Zustandsraum-Dualitäts (SSD) Rahmenwerk ermöglicht es uns, eine neue Architektur (Mamba-2) zu entwerfen, deren Kernschicht eine Verfeinerung des selektiven SSM von Mamba ist, die 2-8-mal schneller ist, während sie weiterhin im Bereich des Sprachmodellierens wettbewerbsfähig mit Transformers bleibt.
Auf der Suche nach künstlicher allgemeiner Intelligenz haben sich Multi-Modale Große Sprachmodelle (MLLMs) als ein zentraler Schwerpunkt bei den jüngsten Fortschritten herauskristallisiert. Dennoch liegt der vorherrschende Fokus weiterhin auf der Entwicklung ihrer Fähigkeiten im Verständnis statischer Bilder. Das Potenzial von MLLMs bei der Verarbeitung sequenzieller visueller Daten ist noch unzureichend erforscht, was auf das Fehlen einer umfassenden, hochwertigen Bewertung ihrer Leistung hinweist. In diesem Papier stellen wir Video-MME vor, den allerersten Vollspektrum-Multi-Modalen Evaluierungsbenchmark von MLLMs in der Videoanalyse. Unsere Arbeit unterscheidet sich von bestehenden Benchmarks durch vier Schlüsselfunktionen: 1) Vielfalt an Videotypen, die 6 primäre visuelle Domänen mit 30 Unterfeldern umfassen, um eine breite Szenariogeneralisierbarkeit sicherzustellen; 2) Dauer in der zeitlichen Dimension, die sowohl kurze, mittlere als auch langfristige Videos umfasst, von 11 Sekunden bis 1 Stunde, für robuste Kontextdynamik; 3) Breite an Datenmodalitäten, die Multi-Modale Eingaben neben Videoframes integrieren, einschließlich Untertiteln und Audios, um die vielseitigen Fähigkeiten von MLLMs aufzudecken; 4) Qualität in der Annotation, unter Verwendung rigoroser manueller Beschriftung durch Expertenannotatoren, um eine präzise und zuverlässige Modellbewertung zu ermöglichen. 900 Videos mit insgesamt 256 Stunden werden manuell ausgewählt und durch wiederholtes Ansehen des gesamten Videomaterials annotiert, was zu 2.700 Frage-Antwort-Paaren führt. Mit Video-MME evaluieren wir umfassend verschiedene Spitzen-MMLMs, einschließlich der GPT-4-Serie und Gemini 1.5 Pro, sowie Open-Source-Bildmodelle wie InternVL-Chat-V1.5 und Videomodelle wie LLaVA-NeXT-Video. Unsere Experimente zeigen, dass Gemini 1.5 Pro das leistungsstärkste kommerzielle Modell ist und die Open-Source-Modelle signifikant übertrifft. Unser Datensatz zusammen mit diesen Erkenntnissen unterstreicht die Notwendigkeit weiterer Verbesserungen im Umgang mit längeren Sequenzen und Multi-Modalen Daten. Projektseite: https://video-mme.github.io
In dieser Arbeit untersuchen wir, ob kleine Sprachmodelle hochwertige Teilmengen von umfangreichen Textdatensätzen bestimmen können, die die Leistung größerer Sprachmodelle verbessern. Während bisherige Arbeiten gezeigt haben, dass das Beschneiden basierend auf der Perplexität eines größeren Modells hochwertige Daten liefern kann, untersuchen wir, ob kleinere Modelle für ein Perplexitäts-basiertes Beschneiden verwendet werden können und wie das Beschneiden durch die Domänenzusammensetzung der zu beschneidenden Daten beeinflusst wird. Wir zeigen, dass für mehrere Datensatzzusammensetzungen ein Perplexitäts-basiertes Beschneiden von Vortrainingsdaten die Leistung bei nachgelagerten Aufgaben signifikant verbessern kann: Das Beschneiden basierend auf Perplexitäten, berechnet mit einem Modell von 125 Millionen Parametern, verbessert die durchschnittliche Leistung bei nachgelagerten Aufgaben eines Modells mit 3 Milliarden Parametern um bis zu 2,04 und erreicht eine Reduzierung der Vortrainingsschritte um bis zu 1,45-fach, um eine vergleichbare Ausgangsleistung zu erreichen. Darüber hinaus zeigen wir, dass ein solches Perplexitäts-basiertes Datenbeschneiden auch Leistungsgewinne bei übertrainierten und datenbeschränkten Regimen bringt.
Diffusionsmodelle haben sich als leistungsstarkes Werkzeug zur Erzeugung hochwertiger Bilder aus textuellen Beschreibungen erwiesen. Trotz ihrer Erfolge zeigen diese Modelle oft eine begrenzte Vielfalt in den generierten Bildern, insbesondere bei der Abtastung mit einem hohen Gewicht für die leitlinienfreie Klassifizierung. Um dieses Problem anzugehen, präsentieren wir Kaleido, einen innovativen Ansatz, der die Vielfalt der Proben durch die Integration autoregressiver latenter Prioritäten erhöht. Kaleido integriert ein autoregressives Sprachmodell, das die ursprüngliche Bildunterschrift codiert und latente Variablen generiert, die als abstrakte und Zwischenrepräsentationen dienen, um den Bildgenerierungsprozess zu lenken und zu erleichtern. In diesem Papier untersuchen wir eine Vielzahl diskreter latenter Repräsentationen, einschließlich textueller Beschreibungen, Erkennungsbereichen, Objektblobs und visueller Tokens. Diese Repräsentationen diversifizieren und bereichern die Eingangsbedingungen für die Diffusionsmodelle und ermöglichen vielfältigere Ausgaben. Unsere experimentellen Ergebnisse zeigen, dass Kaleido die Vielfalt der generierten Bildproben aus einer gegebenen textuellen Beschreibung effektiv erweitert, während die Bildqualität hoch gehalten wird. Darüber hinaus zeigen wir, dass Kaleido eng an die Anleitung durch die generierten latenten Variablen gebunden ist und somit seine Fähigkeit demonstriert, den Bildgenerierungsprozess effektiv zu steuern und zu lenken.
Aktuelle 4D-Generierungsmethoden haben dank fortschrittlicher Diffusions-generativer Modelle eine bemerkenswerte Wirksamkeit erzielt. Diese Methoden weisen jedoch Mängel bei der Mehransichtsraum-Zeit-Modellierung auf und stoßen auf Herausforderungen bei der Integration unterschiedlicher Vorwissensquellen aus mehreren Diffusionsmodellen, was zu inkonsistenter zeitlicher Erscheinung und Flackern führt. In diesem Papier schlagen wir eine neuartige 4D-Generierungspipeline namens 4Diffusion vor, die darauf abzielt, räumlich-zeitlich konsistente 4D-Inhalte aus einem monokularen Video zu generieren. Zunächst entwerfen wir ein vereinheitlichtes Diffusionsmodell, das speziell für die Generierung von Mehransichtsvideos entwickelt wurde, indem wir ein lernbares Bewegungsmodul in ein eingefrorenes, 3D-bewusstes Diffusionsmodell integrieren, um Mehransichtsraum-Zeit-Korrelationen zu erfassen. Nach dem Training an einem kuratierten Datensatz erwirbt unser Diffusionsmodell eine vernünftige zeitliche Konsistenz und bewahrt inhärent die Generalisierbarkeit und räumliche Konsistenz des 3D-bewussten Diffusionsmodells. Anschließend schlagen wir den 4D-bewussten Score-Destillationsabtastungsverlust vor, der auf unserem Mehransichtsvideo-Diffusionsmodell basiert, um die 4D-Repräsentation zu optimieren, die durch dynamisches NeRF parametrisiert ist. Dies zielt darauf ab, Diskrepanzen zu beseitigen, die aus mehreren Diffusionsmodellen entstehen, und ermöglicht die Generierung räumlich-zeitlich konsistenter 4D-Inhalte. Darüber hinaus entwickeln wir einen Anker-Verlust, um die Erscheinungsdetails zu verbessern und das Lernen von dynamischem NeRF zu erleichtern. Umfangreiche qualitative und quantitative Experimente zeigen, dass unsere Methode im Vergleich zu früheren Methoden eine überlegene Leistung erzielt.
Optimierer zweiter Ordnung, die eine Matrix namens Präkonditionierer beibehalten, sind sowohl in der Theorie als auch in der Praxis den Optimierern erster Ordnung überlegen. Die Zustände, die den Präkonditionierer bilden, und sein inverser Wurzelbeschränken die maximale Größe von Modellen, die von Optimierern zweiter Ordnung trainiert werden. Um dies zu lösen, hat sich die Komprimierung von 32-Bit-Optimiererzuständen auf niedrigere Bitbreiten als vielversprechend erwiesen, um den Speicherverbrauch zu reduzieren. Allerdings beziehen sich aktuelle Ansätze nur auf Optimierer erster Ordnung. In diesem Artikel schlagen wir die ersten 4-Bit-Optimierer zweiter Ordnung vor, exemplarisch dargestellt durch 4-Bit Shampoo, die eine ähnliche Leistung wie die 32-Bit-Optimierer beibehalten. Wir zeigen, dass die Quantisierung der Eigenvektormatrix des Präkonditionierers in 4-Bit Shampoo sowohl theoretisch als auch experimentell deutlich besser ist als die Quantisierung des Präkonditionierers selbst. Durch die Korrektur der Orthogonalität der quantisierten Eigenvektormatrix verbessern wir die Approximation der Eigenvektormatrix des Präkonditionierers, was auch die Berechnung seiner inversen 4. Wurzel begünstigt. Darüber hinaus stellen wir fest, dass die lineare Quadratquantisierung bei der Quantisierung von Zuständen von Optimierern zweiter Ordnung leicht besser abschneidet als die dynamische Baumquantisierung. Die Evaluation an verschiedenen Netzwerken für die Bildklassifizierung zeigt, dass unser 4-Bit Shampoo eine vergleichbare Testgenauigkeit wie sein 32-Bit Pendant erreicht, während es speichereffizienter ist. Der Quellcode wird verfügbar gemacht.