Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Text-to-Image-Diffusionsmodelle haben in den letzten Jahren einen bemerkenswerten Fortschritt in ihren Fähigkeiten erzielt, wodurch hochwertige und vielfältige Bildsynthesen aus textuellen Eingabeaufforderungen ermöglicht werden. Allerdings haben selbst die fortschrittlichsten Modelle oft Schwierigkeiten, alle Anweisungen in ihren Eingabeaufforderungen präzise zu befolgen. Die überwiegende Mehrheit dieser Modelle wird auf Datensätzen trainiert, die aus (Bild, Beschriftung)-Paaren bestehen, wobei die Bilder häufig aus dem Web stammen und die Beschriftungen deren HTML-Alternativtexte sind. Ein bemerkenswertes Beispiel ist der LAION-Datensatz, der von Stable Diffusion und anderen Modellen verwendet wird. In dieser Arbeit beobachten wir, dass diese Beschriftungen oft von geringer Qualität sind, und argumentieren, dass dies die Fähigkeit des Modells, nuancierte Semantik in den textuellen Eingabeaufforderungen zu verstehen, erheblich beeinträchtigt. Wir zeigen, dass durch die Neubeschriftung des Korpus mit einem spezialisierten automatischen Beschriftungsmodell und das Training eines Text-to-Image-Modells auf dem neu beschrifteten Datensatz das Modell insgesamt erheblich profitiert. Erstens in der Gesamtbildqualität: z.B. FID 14,84 im Vergleich zum Basiswert von 17,87 und eine Verbesserung von 64,3 % bei der treuen Bildgenerierung laut menschlicher Bewertung. Zweitens in der semantischen Ausrichtung, z.B. semantische Objektgenauigkeit 84,34 gegenüber 78,90, Zählausrichtungsfehler 1,32 gegenüber 1,44 und Positionsausrichtung 62,42 gegenüber 57,60. Wir analysieren verschiedene Möglichkeiten zur Neubeschriftung des Korpus und liefern Belege dafür, dass diese Technik, die wir RECAP nennen, sowohl die Diskrepanz zwischen Training und Inferenz verringert als auch dem Modell mehr Informationen pro Beispiel liefert, was die Stichprobeneffizienz erhöht und es dem Modell ermöglicht, die Beziehungen zwischen Beschriftungen und Bildern besser zu verstehen.
Wir erstellen einen Datensatz von Creative-Commons-lizenzierten (CC) Bildern, den wir verwenden, um eine Reihe von offenen Diffusionsmodellen zu trainieren, die qualitativ mit Stable Diffusion 2 (SD2) konkurrieren können. Diese Aufgabe stellt zwei Herausforderungen dar: (1) Hochauflösende CC-Bilder verfügen nicht über die Beschriftungen, die für das Training von Text-zu-Bild-Generierungsmodellen erforderlich sind; (2) CC-Bilder sind relativ knapp. Um diese Herausforderungen zu bewältigen, verwenden wir eine intuitive Transfer-Learning-Technik, um eine Reihe von hochwertigen synthetischen Beschriftungen zu erstellen, die mit kuratierten CC-Bildern gepaart sind. Anschließend entwickeln wir ein daten- und recheneffizientes Trainingsverfahren, das nur etwa 3 % der für das Training bestehender SD2-Modelle benötigten LAION-2B-Daten erfordert, aber eine vergleichbare Qualität erzielt. Diese Ergebnisse deuten darauf hin, dass wir eine ausreichende Anzahl von CC-Bildern (~70 Millionen) für das Training hochwertiger Modelle haben. Unser Trainingsverfahren implementiert auch eine Vielzahl von Optimierungen, die eine ~3-fache Beschleunigung des Trainings ermöglichen und somit eine schnelle Modelliteration unterstützen. Wir nutzen dieses Verfahren, um mehrere hochwertige Text-zu-Bild-Modelle zu trainieren, die wir als CommonCanvas-Familie bezeichnen. Unser größtes Modell erreicht eine vergleichbare Leistung wie SD2 in einer menschlichen Bewertung, obwohl es auf unserem CC-Datensatz trainiert wurde, der deutlich kleiner als LAION ist, und synthetische Beschriftungen für das Training verwendet. Wir veröffentlichen unsere Modelle, Daten und Code unter https://github.com/mosaicml/diffusion/blob/main/assets/common-canvas.md.
Wir präsentieren DreamCraft3D, eine hierarchische Methode zur 3D-Inhaltsgenerierung, die hochwertige und kohärente 3D-Objekte erzeugt. Wir gehen das Problem an, indem wir ein 2D-Referenzbild nutzen, um die Phasen der Geometrieformung und Texturverbesserung zu steuern. Ein zentraler Fokus dieser Arbeit liegt darin, das Konsistenzproblem zu lösen, das bestehende Ansätze aufweisen. Um Geometrien zu formen, die kohärent gerendert werden, führen wir Score Distillation Sampling über ein sichtabhängiges Diffusionsmodell durch. Dieses 3D-Prior, zusammen mit mehreren Trainingsstrategien, priorisiert die Geometriekonsistenz, beeinträchtigt jedoch die Texturqualität. Wir schlagen weiterhin Bootstrapped Score Distillation vor, um speziell die Textur zu verbessern. Wir trainieren ein personalisiertes Diffusionsmodell, Dreambooth, auf den augmentierten Renderings der Szene, wodurch es mit 3D-Wissen über die optimierte Szene ausgestattet wird. Die Score-Distillation aus diesem 3D-bewussten Diffusions-Prior bietet sichtkonsistente Anleitung für die Szene. Bemerkenswerterweise erreichen wir durch eine abwechselnde Optimierung des Diffusions-Priors und der 3D-Szenendarstellung sich gegenseitig verstärkende Verbesserungen: Die optimierte 3D-Szene unterstützt das Training des szenenspezifischen Diffusionsmodells, das zunehmend sichtkonsistente Anleitung für die 3D-Optimierung bietet. Die Optimierung wird somit gebootstrapped und führt zu einer erheblichen Texturverbesserung. Mit maßgeschneiderten 3D-Priors während der hierarchischen Generierung erzeugt DreamCraft3D kohärente 3D-Objekte mit fotorealistischen Renderings und setzt damit neue Maßstäbe in der 3D-Inhaltsgenerierung. Der Code ist verfügbar unter https://github.com/deepseek-ai/DreamCraft3D.
Mixture-of-Experts (MoE)-Architekturen bieten eine allgemeine Lösung für die hohen Inferenzkosten großer Sprachmodelle (LLMs) durch sparsames Routing, wodurch schnellere und genauere Modelle ermöglicht werden, allerdings auf Kosten einer enormen Anzahl von Parametern. Beispielsweise verfügt das SwitchTransformer-c2048-Modell über 1,6 Billionen Parameter und benötigt 3,2 TB Beschleunigerspeicher, um effizient zu laufen, was die praktische Bereitstellung herausfordernd und kostspielig macht. In diesem Artikel präsentieren wir eine Lösung für dieses Speicherproblem in Form eines neuen Kompressions- und Ausführungsframeworks namens QMoE. Konkret besteht QMoE aus einem skalierbaren Algorithmus, der Billionen-Parameter-MoEs präzise auf weniger als 1 Bit pro Parameter komprimiert, in einem benutzerdefinierten Format, das gemeinsam mit speziellen GPU-Decodierkernen entwickelt wurde, um eine effiziente End-to-End-komprimierte Inferenz mit geringen Laufzeitüberhängen im Vergleich zur unkomprimierten Ausführung zu ermöglichen. Genauer gesagt kann QMoE das 1,6-Billionen-Parameter-Modell SwitchTransformer-c2048 auf weniger als 160 GB (20-fache Kompression, 0,8 Bits pro Parameter) komprimieren, bei nur geringem Genauigkeitsverlust, in weniger als einem Tag auf einer einzelnen GPU. Dies ermöglicht erstmals die Ausführung eines Billionen-Parameter-Modells auf erschwinglicher Standardhardware, wie einem einzelnen Server mit 4x NVIDIA A6000 oder 8x NVIDIA 3090 GPUs, bei weniger als 5 % Laufzeitüberhang im Vergleich zur idealen unkomprimierten Inferenz. Der Quellcode und die komprimierten Modelle sind unter github.com/IST-DASLab/qmoe verfügbar.
In diesem Artikel evaluieren wir verschiedene Fähigkeiten von GPT-4V, darunter visuelles Verständnis, Sprachverständnis, das Lösen visueller Rätsel sowie das Verständnis anderer Modalitäten wie Tiefe, Thermik, Video und Audio. Um die Leistung von GPT-4V zu bewerten, haben wir manuell 656 Testinstanzen erstellt und die Ergebnisse von GPT-4V sorgfältig ausgewertet. Die wichtigsten Erkenntnisse unserer Untersuchung sind wie folgt: (1) GPT-4V zeigt beeindruckende Leistungen bei englischsprachigen, visuell zentrierten Benchmarks, scheitert jedoch daran, einfache chinesische Texte in Bildern zu erkennen; (2) GPT-4V zeigt inkonsistentes Ablehnungsverhalten bei der Beantwortung von Fragen zu sensiblen Merkmalen wie Geschlecht, Rasse und Alter; (3) GPT-4V erzielt schlechtere Ergebnisse als GPT-4 (API) bei Sprachverständnisaufgaben, einschließlich allgemeiner Sprachverständnis-Benchmarks und Benchmarks zur Bewertung visuellen Alltagswissens; (4) Few-Shot-Prompting kann die Leistung von GPT-4V sowohl beim visuellen als auch beim Sprachverständnis verbessern; (5) GPT-4V hat Schwierigkeiten, die Nuancen zwischen zwei ähnlichen Bildern zu erkennen und einfache mathematische Bilderrätsel zu lösen; (6) GPT-4V zeigt beachtliche Leistungen bei Aufgaben mit ähnlichen Modalitäten wie Bildern, beispielsweise Video und Thermik. Unsere experimentellen Ergebnisse offenbaren die Fähigkeiten und Grenzen von GPT-4V, und wir hoffen, dass unser Artikel einige Einblicke in die Anwendung und Forschung von GPT-4V bieten kann.
In dieser Arbeit stellen wir Wonder3D vor, eine neuartige Methode zur effizienten Erzeugung hochwertiger texturierter Meshes aus Einzelbildansichten. Aktuelle Methoden, die auf Score Distillation Sampling (SDS) basieren, haben das Potenzial gezeigt, 3D-Geometrie aus 2D-Diffusionspriors wiederherzustellen, leiden jedoch typischerweise unter zeitaufwändiger pro-Form-Optimierung und inkonsistenter Geometrie. Im Gegensatz dazu erzeugen bestimmte Ansätze 3D-Informationen direkt durch schnelle Netzwerkinferenzen, doch deren Ergebnisse sind oft von geringer Qualität und weisen mangelnde geometrische Details auf. Um die Qualität, Konsistenz und Effizienz von Bild-zu-3D-Aufgaben ganzheitlich zu verbessern, schlagen wir ein domänenübergreifendes Diffusionsmodell vor, das Multi-View-Normalmaps und die entsprechenden Farbbilder erzeugt. Um die Konsistenz zu gewährleisten, verwenden wir einen Multi-View-domänenübergreifenden Aufmerksamkeitsmechanismus, der den Informationsaustausch über Ansichten und Modalitäten hinweg erleichtert. Schließlich führen wir einen geometriebewussten Normal-Fusion-Algorithmus ein, der hochwertige Oberflächen aus den Multi-View-2D-Darstellungen extrahiert. Unsere umfangreichen Auswertungen zeigen, dass unsere Methode im Vergleich zu früheren Arbeiten hochwertige Rekonstruktionsergebnisse, robuste Generalisierung und eine angemessene Effizienz erreicht.
Viele Forscher sind der Ansicht, dass Convolutional Neural Networks (ConvNets) auf kleinen oder mittelgroßen Datensätzen gut abschneiden, jedoch nicht mit Vision Transformers konkurrieren können, wenn sie Zugang zu web-skaligen Datensätzen haben. Wir stellen diese Annahme in Frage, indem wir eine leistungsstarke ConvNet-Architektur evaluieren, die auf JFT-4B vortrainiert wurde – einem großen, beschrifteten Bilddatensatz, der häufig für das Training von Foundation-Modellen verwendet wird. Wir betrachten Vortrainings-Rechenbudgets zwischen 0,4k und 110k TPU-v4-Kern-Rechenstunden und trainieren eine Reihe von Netzwerken mit zunehmender Tiefe und Breite aus der NFNet-Modellfamilie. Wir beobachten ein log-log-Skalierungsgesetz zwischen der Validierungsverlustfunktion und dem Rechenbudget. Nach dem Fine-Tuning auf ImageNet erreichen NFNets die berichtete Leistung von Vision Transformers mit vergleichbaren Rechenbudgets. Unser stärkstes feinabgestimmtes Modell erzielt eine Top-1-Genauigkeit von 90,4 %.
Wir stellen LLM-FP4 vor, eine Methode zur Quantisierung sowohl von Gewichten als auch von Aktivierungen in großen Sprachmodellen (LLMs) auf 4-Bit-Gleitkommawerte, die nach dem Training durchgeführt wird. Bisherige Lösungen für die Post-Training-Quantisierung (PTQ) basieren hauptsächlich auf Ganzzahlen und haben Schwierigkeiten mit Bitbreiten unter 8 Bit. Im Vergleich zur Ganzzahlquantisierung ist die Gleitkomma-Quantisierung (FP) flexibler und kann langschwänzige oder glockenförmige Verteilungen besser handhaben, weshalb sie sich in vielen Hardwareplattformen als Standardoption etabliert hat. Ein Merkmal der FP-Quantisierung ist, dass ihre Leistung stark von der Wahl der Exponentenbits und des Clipping-Bereichs abhängt. In dieser Hinsicht konstruieren wir eine robuste FP-PTQ-Basislinie, indem wir die optimalen Quantisierungsparameter ermitteln. Darüber hinaus beobachten wir ein Muster mit hoher Inter-Kanal-Varianz und niedriger Intra-Kanal-Varianz in den Aktivierungsverteilungen, was die Quantisierung von Aktivierungen erschwert. Wir stellen fest, dass dieses Muster über eine Vielzahl von Transformer-Modellen hinweg konsistent ist, die für verschiedene Aufgaben entwickelt wurden, wie LLMs, BERT und Vision-Transformer-Modelle. Um dies zu bewältigen, schlagen wir eine kanalspezifische Aktivierungsquantisierung vor und zeigen, dass diese zusätzlichen Skalierungsfaktoren als exponentielle Verzerrungen der Gewichte umparametrisiert werden können, was nur vernachlässigbare Kosten verursacht. Unsere Methode kann erstmals sowohl Gewichte als auch Aktivierungen im LLaMA-13B-Modell auf nur 4 Bit quantisieren und erreicht einen Durchschnittswert von 63,1 bei Common-Sense-Zero-Shot-Reasoning-Aufgaben, was nur 5,8 Punkte unter dem Vollpräzisionsmodell liegt und den bisherigen Stand der Technik um 12,7 Punkte deutlich übertrifft. Der Code ist verfügbar unter: https://github.com/nbasyl/LLM-FP4.
Obwohl große Sprachmodelle (LLMs) weit verbreitet sind, werden die Daten, die zu ihrer Trainierung verwendet werden, selten offengelegt. Angesichts des unglaublichen Umfangs dieser Daten, die bis zu Billionen von Tokens umfassen können, ist es nahezu sicher, dass sie potenziell problematische Texte wie urheberrechtlich geschützte Materialien, personenbezogene Informationen und Testdaten für weit verbreitete Referenzbenchmarks enthalten. Allerdings haben wir derzeit keine Möglichkeit zu wissen, welche Daten dieser Art enthalten sind oder in welchen Anteilen. In diesem Artikel untersuchen wir das Problem der Erkennung von Vortrainingsdaten: Können wir, gegeben ein Textstück und einen Black-Box-Zugang zu einem LLM ohne Kenntnis der Vortrainingsdaten, feststellen, ob das Modell mit dem bereitgestellten Text trainiert wurde? Um diese Studie zu ermöglichen, führen wir einen dynamischen Benchmark WIKIMIA ein, der Daten verwendet, die vor und nach dem Modelltraining erstellt wurden, um eine Goldstandard-Erkennung zu unterstützen. Wir stellen auch eine neue Erkennungsmethode Min-K% Prob vor, die auf einer einfachen Hypothese basiert: Ein unbekanntes Beispiel enthält wahrscheinlich einige Ausreißerwörter mit niedrigen Wahrscheinlichkeiten unter dem LLM, während ein bekanntes Beispiel weniger wahrscheinlich Wörter mit solch niedrigen Wahrscheinlichkeiten aufweist. Min-K% Prob kann ohne Kenntnis des Vortrainingskorpus oder zusätzliches Training angewendet werden, was sich von früheren Erkennungsmethoden unterscheidet, die das Training eines Referenzmodells auf Daten erfordern, die den Vortrainingsdaten ähneln. Darüber hinaus zeigen unsere Experimente, dass Min-K% Prob auf WIKIMIA eine Verbesserung von 7,4 % gegenüber diesen früheren Methoden erzielt. Wir wenden Min-K% Prob auf zwei reale Szenarien an, die Erkennung urheberrechtlich geschützter Bücher und die Erkennung kontaminierter Downstream-Beispiele, und finden es als eine durchweg effektive Lösung.
Transformer-basierte Large Language Models (LLMs) sind wegweisende Fortschritte in vielen Aufgaben der natürlichen Sprachverarbeitung, doch ihre außergewöhnlichen Fähigkeiten sind durch das vordefinierte Kontextfenster des Transformers begrenzt. Position Embedding (PE)-Skalierungsmethoden, die zwar effektiv das Kontextfenster auf eine bestimmte Länge erweitern, zeigen entweder deutliche Einschränkungen in ihren Extrapolationsfähigkeiten oder opfern teilweise die Leistung innerhalb des Kontextfensters. Längenextrapolationsmethoden, obwohl theoretisch in der Lage, das Kontextfenster über die Trainingssequenzlänge hinaus zu erweitern, schneiden in praktischen Anwendungen mit langem Kontext oft schlecht ab. Um diese Herausforderungen zu bewältigen, schlagen wir Continuous Length EXtrapolation (CLEX) für LLMs vor. Wir verallgemeinern die PE-Skalierungsansätze, um die kontinuierliche Dynamik durch gewöhnliche Differentialgleichungen über den Längenskalierungsfaktor zu modellieren und überwinden so die Beschränkungen aktueller PE-Skalierungsmethoden, die für spezifische Längen entwickelt wurden. Darüber hinaus erleichtert CLEX durch die Erweiterung der Dynamik auf gewünschte Kontextlängen, die über die Trainingssequenzlänge hinausgehen, die Längenextrapolation mit beeindruckender Leistung in praktischen Aufgaben. Wir zeigen, dass CLEX nahtlos in LLMs integriert werden kann, die mit Rotary Position Embedding ausgestattet sind, wie z.B. LLaMA und GPT-NeoX, ohne nennenswerte Auswirkungen auf die Trainings- und Inferenzlatenz. Experimentelle Ergebnisse zeigen, dass CLEX das Kontextfenster effektiv auf über das 4-fache oder fast das 8-fache der Trainingslänge erweitern kann, ohne dass die Leistung beeinträchtigt wird. Darüber hinaus zeigt unser Modell, das auf einer Länge von 4k trainiert wurde, bei der Bewertung auf dem praktischen LongBench-Benchmark eine wettbewerbsfähige Leistung im Vergleich zu state-of-the-art Open-Source-Modellen, die auf Kontextlängen von bis zu 32k trainiert wurden.
Die Aktualisierung großer Foundation-Modelle mit den neuesten Daten ist von Natur aus kostspielig. Um die unerschwinglichen Kosten einer ständigen Neuanpassung zu vermeiden, ist es unerlässlich, diese Modelle kontinuierlich weiterzutrainieren. Dieses Problem wird durch das Fehlen von groß angelegten Benchmarks oder Baselines für kontinuierliches Lernen noch verschärft. Wir stellen die ersten Web-Scale-Time-Continual-(TiC)-Benchmarks für das Training von Vision-Language-Modellen vor: TiC-DataCompt, TiC-YFCC und TiC-RedCaps mit über 12,7 Milliarden zeitlich markierten Bild-Text-Paaren, die einen Zeitraum von 9 Jahren (2014–2022) abdecken. Zunächst nutzen wir unsere Benchmarks, um verschiedene dynamische Evaluierungen zu erstellen, um die zeitliche Robustheit bestehender Modelle zu messen. Wir zeigen, dass OpenAIs CLIP (mit Daten bis 2020 trainiert) bei unserer kuratierten Retrieval-Aufgabe für den Zeitraum 2021–2022 im Vergleich zu kürzlich trainierten Modellen im OpenCLIP-Repository etwa 8 % an Zero-Shot-Genauigkeit verliert. Anschließend untersuchen wir, wie Modelle effizient auf zeitlich kontinuierlichen Daten trainiert werden können. Wir demonstrieren, dass ein einfacher, auf Rehearsal basierender Ansatz, der das Training vom letzten Checkpoint aus fortsetzt und alte Daten wiederverwendet, den Rechenaufwand im Vergleich zur Standardpraxis des Neuanfangstrainings um das 2,5-fache reduziert.
TD-MPC ist ein modellbasiertes Reinforcement-Learning (RL)-Algorithmus, der lokale Trajektorienoptimierung im latenten Raum eines gelernten impliziten (decoderfreien) Weltmodells durchführt. In dieser Arbeit präsentieren wir TD-MPC2: eine Reihe von Verbesserungen gegenüber dem TD-MPC-Algorithmus. Wir zeigen, dass TD-MPC2 signifikant besser abschneidet als Vergleichsverfahren über 104 Online-RL-Aufgaben, die 4 verschiedene Aufgabenbereiche umfassen, und dabei durchweg starke Ergebnisse mit einem einzigen Satz von Hyperparametern erzielt. Wir zeigen weiter, dass die Fähigkeiten des Agenten mit der Modell- und Datengröße zunehmen, und trainieren erfolgreich einen einzelnen Agenten mit 317M Parametern, der 80 Aufgaben über mehrere Aufgabenbereiche, Embodiments und Aktionsräume hinweg ausführt. Wir schließen mit einer Darstellung von Lehren, Chancen und Risiken, die mit großen TD-MPC2-Agenten verbunden sind. Erkunden Sie Videos, Modelle, Daten, Code und mehr unter https://nicklashansen.github.io/td-mpc2.
Die Echtzeit-Synthese von Bildern aus neuen Blickwinkeln auf mobilen Geräten ist aufgrund der begrenzten Rechenleistung und Speicherkapazität nur schwer realisierbar. Die Verwendung volumetrischer Rendering-Methoden wie NeRF und dessen Ableitungen auf mobilen Geräten ist aufgrund des hohen Rechenaufwands des volumetrischen Renderings nicht geeignet. Andererseits haben jüngste Fortschritte in der Darstellung von neuronalen Lichtfeldern vielversprechende Ergebnisse für die Echtzeit-Blicksynthese auf mobilen Geräten gezeigt. Neuronale Lichtfeldmethoden lernen eine direkte Abbildung von einer Strahldarstellung zur Pixel-Farbe. Die derzeitige Wahl der Strahldarstellung ist entweder geschichtete Strahlenabtastung oder Plücker-Koordinaten, wobei die klassische Lichtschicht-Zwei-Ebenen-Darstellung, die bevorzugte Darstellung zur Interpolation zwischen Lichtfeldansichten, übersehen wird. In dieser Arbeit stellen wir fest, dass die Verwendung der Lichtschicht-Darstellung eine effiziente Darstellung für das Lernen eines neuronalen Lichtfelds ist. Noch wichtiger ist, dass es sich um eine niedrigdimensionale Strahldarstellung handelt, die es uns ermöglicht, den 4D-Strahlraum mithilfe von Feature-Grids zu lernen, die deutlich schneller zu trainieren und zu rendern sind. Obwohl hauptsächlich für Frontalansichten konzipiert, zeigen wir, dass die Lichtschicht-Darstellung weiter auf nicht-frontale Szenen erweitert werden kann, indem eine Divide-and-Conquer-Strategie angewendet wird. Unsere Methode bietet eine überlegene Rendering-Qualität im Vergleich zu früheren Lichtfeldmethoden und erreicht ein deutlich verbessertes Verhältnis zwischen Rendering-Qualität und Geschwindigkeit.