Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir stellen den ersten Modell-Diebstahl-Angriff vor, der präzise, nicht-triviale Informationen aus Black-Box-Produktions-Sprachmodellen wie OpenAI's ChatGPT oder Google's PaLM-2 extrahiert. Speziell stellt unser Angriff die Einbettungsprojektionsschicht (bis zu Symmetrien) eines Transformer-Modells wieder her, unter Verwendung eines typischen API-Zugriffs. Für weniger als 20 USD extrahiert unser Angriff die gesamte Projektionsmatrix der OpenAI-Modelle Ada und Babbage. Damit bestätigen wir erstmals, dass diese Black-Box-Modelle jeweils eine verborgene Dimension von 1024 bzw. 2048 haben. Wir stellen auch die genaue Größe der verborgenen Dimension des Modells gpt-3.5-turbo wieder her und schätzen, dass es weniger als 2.000 Abfragen kosten würde, um die gesamte Projektionsmatrix wiederherzustellen. Wir schließen mit potenziellen Abwehrmaßnahmen und Minderungsstrategien ab und diskutieren die Auswirkungen möglicher zukünftiger Arbeiten, die unseren Angriff erweitern könnten.
Die jüngsten Fortschritte bei großen Sprachmodellen haben der Welt immense Werte gebracht, die aus ihrer überlegenen Leistungsfähigkeit resultieren, die auf der enormen Anzahl von Parametern beruht, die sie nutzen. Allerdings sind selbst die GPUs mit dem höchsten Speicherplatz, der derzeit bei 80 GB liegt, weit davon entfernt, diese umfangreichen Parameter und ihre zugehörigen Optimiererzustände bei der Durchführung einer Optimierung auf Basis stochastischer Gradientenabstiegsverfahren zu beherbergen. Ein Ansatz, um solche riesigen Modelle zu hosten, besteht darin, den Gerätespeicher von vielen GPUs zu aggregieren. Dieser Ansatz bringt jedoch hohe Kosten mit sich, die für die meisten akademischen Forscher unerschwinglich sind, da sie immer über ein begrenztes Budget für viele High-End-GPU-Server verfügen. In diesem Artikel konzentrieren wir uns auf das Feintuning riesiger Modelle auf einer einzelnen, selbst Low-End, GPU in einem handelsüblichen Server, der den meisten KI-Forschern zugänglich ist. In einem solchen Szenario leidet die hochmoderne Arbeit ZeRO-Infinity unter zwei schwerwiegenden Problemen, wenn sie auf einem handelsüblichen Server ausgeführt wird: 1) geringe GPU-Auslastung aufgrund ineffizienten Swappings und 2) begrenzte trainierbare Modellgröße aufgrund des Speicherplatzes der CPU. Der zugrunde liegende Grund dafür ist, dass ZeRO-Infinity für den Betrieb auf High-End-GPU-Servern optimiert ist. Zu diesem Zweck präsentieren wir Fuyou, ein kostengünstiges Schulungsframework, das ein effizientes Feintuning riesiger Modelle von 100B auf einem Low-End-Server mit einer Low-End-GPU und begrenztem CPU-Speicherplatz ermöglicht. Die Schlüsselidee besteht darin, die SSD-CPU-Kommunikation als Optimierungsdimension hinzuzufügen und somit Berechnungen und Datenaustausch aus einer systematischen Perspektive sorgfältig zu optimieren, um die GPU-Auslastung zu maximieren. Die experimentellen Ergebnisse zeigen, dass 1) Fuyou in der Lage ist, 175B GPT-3 auf einer Consumer-GPU RTX 4090 mit hoher GPU-Auslastung feinzutunen, während ZeRO-Infinity daran scheitert; und 2) bei der Schulung eines kleinen GPT-3 13B-Modells erreicht Fuyou 156 TFLOPS auf einer RTX 4090-GPU, während ZeRO-Infinity nur 45 TFLOPS erreicht.
Um die dualen Herausforderungen der lokalen Redundanz und globalen Abhängigkeiten im Bereich der Videoverarbeitung anzugehen, passt diese Arbeit innovativ den Mamba an das Video-Domäne an. Der vorgeschlagene VideoMamba überwindet die Einschränkungen bestehender 3D-Faltungsneuronale Netzwerke und Video-Transformer. Sein linear-komplexer Operator ermöglicht eine effiziente Langzeitmodellierung, die für das Verständnis von hochauflösenden Langvideos entscheidend ist. Umfangreiche Bewertungen enthüllen die vier Kernfähigkeiten von VideoMamba: (1) Skalierbarkeit im visuellen Bereich ohne umfangreiches Datenvortraining dank einer neuartigen Selbstdestillations-Technik; (2) Empfindlichkeit zur Erkennung kurzfristiger Aktionen selbst bei feinkörnigen Bewegungsunterschieden; (3) Überlegenheit im Langzeit-Videoverständnis, die signifikante Fortschritte gegenüber traditionellen Merkmal-basierten Modellen zeigt; und (4) Kompatibilität mit anderen Modalitäten, die Robustheit in multimodalen Kontexten demonstriert. Durch diese klaren Vorteile setzt VideoMamba einen neuen Maßstab für das Videoverständnis und bietet eine skalierbare und effiziente Lösung für umfassendes Videoverständnis. Der gesamte Code und die Modelle sind unter https://github.com/OpenGVLab/VideoMamba verfügbar.
Die automatische 3D-Generierung hat in letzter Zeit weitreichende Aufmerksamkeit erregt. Aktuelle Methoden haben die Generierungsgeschwindigkeit erheblich beschleunigt, erzeugen jedoch in der Regel weniger detaillierte Objekte aufgrund begrenzter Modellkapazität oder 3D-Daten. Angeregt durch die jüngsten Fortschritte bei Videodiffusionsmodellen, stellen wir V3D vor, das die Welt-Simulationskapazität vorab trainierter Videodiffusionsmodelle nutzt, um die 3D-Generierung zu erleichtern. Um das Potenzial der Videodiffusion zur Wahrnehmung der 3D-Welt voll auszuschöpfen, führen wir zusätzlich geometrische Konsistenzprioritäten ein und erweitern das Videodiffusionsmodell zu einem mehrblickkonsistenten 3D-Generator. Durch diese Maßnahmen kann das modernste Videodiffusionsmodell feinabgestimmt werden, um 360-Grad-Orbitrahmen um ein Objekt zu generieren, basierend auf einem einzelnen Bild. Mit unseren maßgeschneiderten Rekonstruktionspipelines können hochwertige Meshes oder 3D-Gaußsche innerhalb von 3 Minuten generiert werden. Darüber hinaus kann unsere Methode auf die Synthese von Szenen-Novelansichten erweitert werden, wodurch eine präzise Steuerung des Kamerapfads mit wenigen Eingangsansichten erreicht wird. Umfangreiche Experimente zeigen die überragende Leistung des vorgeschlagenen Ansatzes, insbesondere in Bezug auf Generierungsqualität und Mehrblickkonsistenz. Unser Code ist verfügbar unter https://github.com/heheyas/V3D
In dieser Studie identifizieren wir ineffiziente Aufmerksamkeitsphänomene in großen Vision-Sprach-Modellen (LVLMs), insbesondere in prominenten Modellen wie LLaVA-1.5, QwenVL-Chat und Video-LLaVA. Wir stellen fest, dass die Aufmerksamkeitsberechnung über visuelle Token in den tiefen Schichten beliebter LVLMs äußerst ineffizient ist und darauf hinweist, dass ein spärlicherer Ansatz im Vergleich zur Handhabung von Textdaten erforderlich ist. Zu diesem Zweck führen wir FastV ein, eine vielseitige Plug-and-Play-Methode, die darauf abzielt, die Rechenleistung zu optimieren, indem sie adaptive Aufmerksamkeitsmuster in den frühen Schichten lernt und visuelle Token in den folgenden Schichten beschneidet. Unsere Bewertungen zeigen die Fähigkeit von FastV, die Rechenkosten drastisch zu senken (z. B. eine Reduzierung um 45 % der FLOPs für LLaVA-1.5-13B), ohne die Leistung bei einer Vielzahl von Bild- und Videoverständnisaufgaben zu beeinträchtigen. Der Kompromiss zwischen Rechenleistung und Leistung von FastV ist hochgradig anpassbar und pareto-effizient. Es kann die FLOPs eines 13B-Parameter-Modells komprimieren, um ein niedrigeres Budget als das eines 7B-Parameter-Modells zu erreichen, und dabei dennoch eine überlegene Leistung beibehalten. Wir sind der Meinung, dass FastV praktischen Nutzen für den Einsatz von LVLMs in Edge-Geräten und kommerziellen Modellen hat. Der Code ist unter https://github.com/pkunlp-icler/FastV verfügbar.
Wir untersuchen die Rate, mit der sich Algorithmen zur Vorabtrainierung von Sprachmodellen seit dem Aufkommen des Deep Learning verbessert haben. Unter Verwendung eines Datensatzes von über 200 Bewertungen von Sprachmodellen auf Wikitext und Penn Treebank, die den Zeitraum von 2012 bis 2023 abdecken, stellen wir fest, dass die Rechenleistung, die erforderlich ist, um einen bestimmten Leistungsstandard zu erreichen, sich ungefähr alle 8 Monate halbiert hat, mit einem Konfidenzintervall von etwa 5 bis 14 Monaten, was wesentlich schneller ist als die Hardwareverbesserungen gemäß Moores Gesetz. Wir schätzen erweiterte Skalierungsgesetze ab, die es uns ermöglichen, den algorithmischen Fortschritt zu quantifizieren und die relativen Beiträge von Skalierungsmodellen im Vergleich zu Innovationen in den Trainingsalgorithmen zu bestimmen. Trotz des schnellen algorithmischen Fortschritts und der Entwicklung neuer Architekturen wie dem Transformer zeigt unsere Analyse, dass der Anstieg der Rechenleistung über diesen Zeitraum hinweg einen noch größeren Beitrag zu den Gesamtverbesserungen der Leistung geleistet hat. Obwohl unsere Analyse durch ungenaue Benchmark-Daten eingeschränkt ist, quantifiziert sie den schnellen Fortschritt im Bereich des Sprachmodellierens und beleuchtet die relativen Beiträge von Rechenleistung und Algorithmen.
Die Einführung von Sora markiert eine neue Ära für Text-zu-Video-Diffusionsmodelle und bringt signifikante Fortschritte in der Videogenerierung und potenziellen Anwendungen. Sora und andere Text-zu-Video-Diffusionsmodelle sind jedoch stark auf die Eingabeaufforderungen angewiesen, und es gibt kein öffentlich verfügbares Datenset, das eine Untersuchung von Text-zu-Video-Eingabeaufforderungen enthält. In diesem Artikel stellen wir VidProM vor, das erste Datenset im großen Maßstab, das 1,67 Millionen einzigartige Text-zu-Video-Eingabeaufforderungen von echten Benutzern enthält. Darüber hinaus umfasst das Datenset 6,69 Millionen Videos, die von vier hochmodernen Diffusionsmodellen generiert wurden, sowie einige verwandte Daten. Wir zeigen zunächst die Kuratierung dieses Datensets im großen Maßstab, was ein zeitaufwändiger und kostspieliger Prozess ist. Anschließend zeigen wir, wie sich das vorgeschlagene VidProM von DiffusionDB unterscheidet, einem Datenset im großen Maßstab für Bildgenerierung. Basierend auf der Analyse dieser Eingabeaufforderungen identifizieren wir die Notwendigkeit eines neuen Eingabeaufforderungsdatensets, das speziell für die Text-zu-Video-Generierung konzipiert ist, und gewinnen Einblicke in die Vorlieben echter Benutzer bei der Erstellung von Videos. Unser umfangreiches und vielfältiges Datenset inspiriert auch viele aufregende neue Forschungsbereiche. Beispielsweise schlagen wir vor, zur Entwicklung besserer, effizienterer und sichererer Text-zu-Video-Diffusionsmodelle die Erforschung von Text-zu-Video-Eingabeaufforderungs-Engineering, effizienter Videogenerierung und Videokopieerkennung für Diffusionsmodelle zu untersuchen. Wir stellen das gesammelte Datenset VidProM öffentlich auf GitHub und Hugging Face unter der CC-BY-NC 4.0 Lizenz zur Verfügung.
Diffusionsmodelle sind relativ einfach zu trainieren, erfordern jedoch viele Schritte, um Stichproben zu generieren. Konsistenzmodelle sind viel schwieriger zu trainieren, generieren jedoch Stichproben in einem einzigen Schritt. In diesem Paper schlagen wir Multistep-Konsistenzmodelle vor: Eine Vereinigung zwischen Konsistenzmodellen (Song et al., 2023) und TRACT (Berthelot et al., 2023), die zwischen einem Konsistenzmodell und einem Diffusionsmodell interpolieren kann: ein Kompromiss zwischen der Geschwindigkeit der Stichprobenahme und der Qualität der Stichproben. Speziell ist ein Konsistenzmodell mit 1 Schritt ein herkömmliches Konsistenzmodell, während wir zeigen, dass ein Konsistenzmodell mit unendlich vielen Schritten ein Diffusionsmodell ist. Multistep-Konsistenzmodelle funktionieren in der Praxis sehr gut. Durch Erhöhung des Stichproben-Budgets von einem einzigen Schritt auf 2-8 Schritte können wir Modelle einfacher trainieren, die qualitativ hochwertigere Stichproben generieren, während wir viele der Vorteile der Geschwindigkeit der Stichprobenahme beibehalten. Bemerkenswerte Ergebnisse sind 1,4 FID auf Imagenet 64 in 8 Schritten und 2,1 FID auf Imagenet128 in 8 Schritten mit Konsistenzdestillation. Wir zeigen auch, dass unsere Methode auf ein Text-zu-Bild-Diffusionsmodell skaliert, das Stichproben generiert, die der Qualität des Originalmodells sehr nahe kommen.
Die subjektgesteuerte Generierung hat in letzter Zeit erhebliches Interesse geweckt, da sie die Personalisierung der Text-zu-Bild-Generierung ermöglicht. Typische Arbeiten konzentrieren sich darauf, die privaten Attribute des neuen Subjekts zu erlernen. Allerdings wurde eine wichtige Tatsache nicht ernsthaft berücksichtigt, dass ein Subjekt kein isoliertes neues Konzept ist, sondern eine Spezialisierung einer bestimmten Kategorie im vortrainierten Modell sein sollte. Dies führt dazu, dass das Subjekt nicht umfassend die Attribute in seiner Kategorie erbt, was zu schlechten attributbezogenen Generationen führt. In diesem Papier, inspiriert von objektorientierter Programmierung, modellieren wir das Subjekt als abgeleitete Klasse, deren Basisklasse ihre semantische Kategorie ist. Dieses Modellieren ermöglicht es dem Subjekt, öffentliche Attribute aus seiner Kategorie zu erben, während es seine privaten Attribute aus dem vom Benutzer bereitgestellten Beispiel lernt. Speziell schlagen wir eine Plug-and-Play-Methode, die Subjekt-abgeleitete Regularisierung (SuDe), vor. Sie konstruiert das Basisklassen-abgeleitete Klassenmodell, indem sie die subjektgesteuert generierten Bilder semantisch der Kategorie des Subjekts zuordnet. Umfangreiche Experimente unter drei Baselines und zwei Backbones zu verschiedenen Subjekten zeigen, dass unser SuDe imaginative attributbezogene Generationen ermöglicht, während die Subjekttreue erhalten bleibt. Der Code wird bald bei FaceChain (https://github.com/modelscope/facechain) veröffentlicht.