Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Transformer-basierte Sprachmodelle verteilen FLOPs gleichmäßig über Eingabesequenzen. In dieser Arbeit zeigen wir, dass Transformer stattdessen lernen können, FLOPs (oder Berechnungen) dynamisch bestimmten Positionen in einer Sequenz zuzuweisen, wobei die Zuweisung entlang der Sequenz für verschiedene Schichten über die Modelltiefe optimiert wird. Unsere Methode setzt ein Gesamtberechnungsbudget durch Begrenzung der Anzahl von Tokens (k) um, die an der Self-Attention und MLP-Berechnungen in einer bestimmten Schicht teilnehmen können. Die zu verarbeitenden Tokens werden vom Netzwerk mithilfe eines Top-k-Routingmechanismus bestimmt. Da k a priori definiert ist, verwendet dieses einfache Verfahren einen statischen Berechnungsgraphen mit bekannten Tensorgrößen, im Gegensatz zu anderen bedingten Berechnungstechniken. Dennoch, da die Identitäten der k Tokens variabel sind, kann diese Methode FLOPs nicht gleichmäßig über die Zeit- und Modelltiefe-Dimensionen verteilen. Somit ist der Berechnungsaufwand insgesamt vollständig vorhersehbar, aber dynamisch und kontextsensitiv auf der Token-Ebene. Modelle, die auf diese Weise trainiert werden, lernen nicht nur, Berechnungen dynamisch zuzuweisen, sondern tun dies auch effizient. Diese Modelle erreichen die Baseline-Performance für äquivalente FLOPS und Trainingszeiten, benötigen jedoch nur einen Bruchteil der FLOPs pro Vorwärtspass und können während der Post-Training-Samplingphase um mehr als 50\% schneller sein.
Wir präsentieren das Visual AutoRegressive Modeling (VAR), ein neues Paradigma der nächsten Generation, das das autoregressive Lernen von Bildern als grob-zu-fein "Vorhersage der nächsten Skala" oder "Vorhersage der nächsten Auflösung" neu definiert und sich von der Standard-Raster-Scan "Vorhersage des nächsten Tokens" abhebt. Diese einfache, intuitive Methodik ermöglicht es autoregressiven (AR) Transformern, visuelle Verteilungen schnell zu erlernen und gut zu generalisieren: VAR übertrifft erstmals Diffusionstransformatoren in der Bildgenerierung. Auf dem ImageNet 256x256 Benchmark verbessert VAR die AR-Basislinie signifikant, indem der Frechet-Inception-Abstand (FID) von 18,65 auf 1,80 und der Inception-Score (IS) von 80,4 auf 356,4 verbessert werden, bei etwa 20-fach schnellerer Inferenzgeschwindigkeit. Es wurde auch empirisch nachgewiesen, dass VAR den Diffusionstransformator (DiT) in mehreren Dimensionen einschließlich Bildqualität, Inferenzgeschwindigkeit, Daten-Effizienz und Skalierbarkeit übertrifft. Das Skalieren von VAR-Modellen zeigt klare Potenzgesetze, die denen ähneln, die bei LLMs beobachtet wurden, mit linearen Korrelationskoeffizienten nahe -0,998 als solider Beweis. VAR präsentiert außerdem die Fähigkeit zur Null-Schuss-Verallgemeinerung in nachgelagerten Aufgaben, einschließlich Bild-Inpainting, Out-Painting und Bearbeitung. Diese Ergebnisse legen nahe, dass VAR die beiden wichtigen Eigenschaften von LLMs zunächst nachgeahmt hat: Potenzgesetze und Null-Schuss-Aufgabenverallgemeinerung. Wir haben alle Modelle und Codes veröffentlicht, um die Erkundung von AR/VAR-Modellen für die visuelle Generierung und das vereinheitlichte Lernen zu fördern.
Algorithmisches Denken bezieht sich auf die Fähigkeit, komplexe Muster hinter einem Problem zu verstehen und sie in eine Abfolge von Denkschritten zur Lösung zu zerlegen. Diese Art des algorithmischen Denkens stellt eine Herausforderung für große Sprachmodelle (LLMs) dar, obwohl sie vielversprechende Leistungen in anderen Denkaufgaben gezeigt haben. In diesem Zusammenhang verwenden einige aktuelle Studien Programmiersprachen (z. B. Python), um die erforderliche Logik zur Lösung einer gegebenen Instanz/Frage (z. B. Programm-des-Denkens) auszudrücken, inspiriert von ihren strengen und präzisen Syntaxen. Es ist jedoch nicht trivial, einen ausführbaren Code zu schreiben, der die korrekte Logik sofort in einem einzigen Inferenzaufruf ausdrückt. Außerdem kann der speziell für eine Instanz generierte Code nicht für andere wiederverwendet werden, auch wenn sie aus derselben Aufgabe stammen und möglicherweise eine identische Logik zur Lösung erfordern. Diese Arbeit stellt Think-and-Execute vor, ein neuartiges Framework, das den Denkprozess von Sprachmodellen in zwei Schritte zerlegt. (1) Im Denken entdecken wir eine aufgabenbezogene Logik, die für die Lösung einer gegebenen Aufgabe für alle Instanzen gemeinsam ist, und drücken dann die Logik mit Pseudocode aus; (2) Im Ausführen passen wir den generierten Pseudocode weiter an jede Instanz an und simulieren die Ausführung des Codes. Mit umfangreichen Experimenten zu sieben algorithmischen Denkaufgaben zeigen wir die Wirksamkeit von Think-and-Execute. Unser Ansatz verbessert das Denken von LMs im Vergleich zu mehreren starken Baselines, die eine instanzspezifische Logik ausführen (z. B. CoT und PoT), was auf die Nützlichkeit der Entdeckung von aufgabenbezogener Logik hinweist. Außerdem zeigen wir, dass Pseudocode im Vergleich zur natürlichen Sprache das Denken von LMs besser lenken kann, obwohl sie darauf trainiert sind, natürlichsprachigen Anweisungen zu folgen.
Große Sprachmodelle (LLMs) haben eine ausgezeichnete Beherrschung der menschlichen Sprache gezeigt, kämpfen jedoch immer noch in realen Anwendungen, die mathematische Problemlösungen erfordern. Obwohl viele Strategien und Datensätze zur Verbesserung der mathematischen Fähigkeiten von LLMs entwickelt wurden, bleibt es eine Herausforderung, gleichzeitig sowohl die sprachlichen als auch mathematischen Fähigkeiten in implementierten LLM-Systemen aufrechtzuerhalten und zu verbessern. In dieser Arbeit passen wir die Selbstkritik-Pipeline an, die die Herausforderung im Feedback-Lernstadium der LLM-Ausrichtung angeht. Zunächst trainieren wir ein allgemeines Math-Kritik-Modell aus dem LLM selbst, um Feedbacksignale bereitzustellen. Anschließend wenden wir sequenziell ablehnendes Feintuning und direkte Präferenzoptimierung über die eigenen Generationen des LLM für die Datensammlung an. Basierend auf ChatGLM3-32B führen wir eine Reihe von Experimenten sowohl mit akademischen als auch mit unserem neu erstellten anspruchsvollen Datensatz, MathUserEval, durch. Die Ergebnisse zeigen, dass unsere Pipeline die mathematischen Problemlösungsfähigkeiten des LLM signifikant verbessert, während es gleichzeitig seine sprachlichen Fähigkeiten verbessert, und dabei LLMs übertrifft, die möglicherweise doppelt so groß sind. Ähnliche Techniken wurden bei ChatGLM\url{https://chatglm.cn}, einem online bereitgestellten LLM, eingesetzt. Der zugehörige Evaluationsdatensatz und Skripte sind unter https://github.com/THUDM/ChatGLM-Math veröffentlicht worden.
Tuning-freie Diffusionsmodelle haben ein signifikantes Potenzial im Bereich der Bildpersonalisierung und -anpassung gezeigt. Trotz dieser beachtlichen Fortschritte haben aktuelle Modelle weiterhin mit mehreren komplexen Herausforderungen bei der Erzeugung stil-konsistenter Bilder zu kämpfen. Erstens ist der Begriff des Stils inhärent unterbestimmt und umfasst eine Vielzahl von Elementen wie Farbe, Material, Atmosphäre, Design und Struktur, unter anderem. Zweitens neigen Inversionsmethoden zur Stilverschlechterung, was oft zum Verlust fein abgestufter Details führt. Schließlich erfordern adapterbasierte Ansätze häufig eine akribische Gewichtsabstimmung für jedes Referenzbild, um ein Gleichgewicht zwischen Stilintensität und Textsteuerbarkeit zu erreichen. In diesem Artikel beginnen wir mit der Untersuchung mehrerer überzeugender, jedoch häufig übersehener Beobachtungen. Anschließend stellen wir InstantStyle vor, ein Framework, das entwickelt wurde, um diese Probleme durch die Implementierung von zwei Schlüsselstrategien anzugehen: 1) Ein einfacher Mechanismus, der Stil und Inhalt von Referenzbildern im Merkmalsraum entkoppelt, basierend auf der Annahme, dass Merkmale im selben Raum entweder addiert oder voneinander subtrahiert werden können. 2) Die Injektion von Referenzbildmerkmalen ausschließlich in stil-spezifische Blöcke, um Stil-Lecks zu verhindern und aufwändige Gewichtsabstimmungen zu vermeiden, die oft bei designs mit vielen Parametern charakteristisch sind. Unsere Arbeit zeigt überlegene visuelle Stilisierungsergebnisse auf und findet ein optimales Gleichgewicht zwischen Stilintensität und Steuerbarkeit von Textelementen. Unser Code wird unter https://github.com/InstantStyle/InstantStyle verfügbar sein.
Die Skalierung von Modell- und Datengröße war für die Evolution von LLMs sehr erfolgreich. Allerdings ist das Skalierungsgesetz für auf Diffusion basierende Text-zu-Bild (T2I)-Modelle noch nicht vollständig erforscht. Es ist auch unklar, wie das Modell effizient skaliert werden kann, um eine bessere Leistung bei reduzierten Kosten zu erzielen. Die unterschiedlichen Trainingskonfigurationen und die hohen Trainingskosten machen einen fairen Modellvergleich äußerst schwierig. In dieser Arbeit untersuchen wir empirisch die Skalierungseigenschaften von auf Diffusion basierenden T2I-Modellen, indem wir umfangreiche und strenge Ablationen sowohl an den Rauschunterdrückungsrückgraten als auch am Trainingssatz durchführen, einschließlich des Trainings skalierte UNet- und Transformer-Varianten mit Parametern von 0,4B bis 4B auf Datensätzen von bis zu 600 Millionen Bildern. Bei der Modellskalierung stellen wir fest, dass Ort und Menge der Kreuz-Aufmerksamkeit die Leistung der bestehenden UNet-Designs unterscheiden. Die Erhöhung der Transformer-Blöcke ist parameter-effizienter zur Verbesserung der Text-Bild-Ausrichtung als die Erhöhung der Kanalanzahl. Anschließend identifizieren wir eine effiziente UNet-Variante, die um 45 % kleiner und 28 % schneller ist als das UNet von SDXL. Auf der Datenskalierungsseite zeigen wir, dass Qualität und Vielfalt des Trainingssatzes wichtiger sind als nur die Datensatzgröße. Eine Erhöhung der Bildunterschriftendichte und -vielfalt verbessert die Leistung der Text-Bild-Ausrichtung und die Lerneffizienz. Schließlich stellen wir Skalierungsfunktionen bereit, um die Leistung der Text-Bild-Ausrichtung als Funktion der Modellgröße, Berechnung und Datensatzgröße vorherzusagen.
Diese Studie untersucht die Rolle der Kreuz-Aufmerksamkeit während der Inferenz in textbedingten Diffusionsmodellen. Wir stellen fest, dass die Ausgaben der Kreuz-Aufmerksamkeit nach wenigen Inferenzschritten auf einen Fixpunkt konvergieren. Dementsprechend teilt der Konvergenzzeitpunkt natürlich den gesamten Inferenzprozess in zwei Phasen auf: eine anfängliche Semantik-Planungsphase, während der das Modell auf die Kreuz-Aufmerksamkeit angewiesen ist, um textorientierte visuelle Semantik zu planen, und eine nachfolgende Genauigkeitsverbesserungsphase, während der das Modell versucht, Bilder aus zuvor geplanter Semantik zu generieren. Überraschenderweise reduziert das Ignorieren von Textbedingungen in der Genauigkeitsverbesserungsphase nicht nur die Rechenkomplexität, sondern erhält auch die Modellleistung. Dies führt zu einer einfachen und trainingsfreien Methode namens TGATE für effiziente Generierung, die die Ausgabe der Kreuz-Aufmerksamkeit zwischenspeichert, sobald sie konvergiert, und sie während der verbleibenden Inferenzschritte konstant hält. Unsere empirische Studie am MS-COCO-Validierungsset bestätigt deren Wirksamkeit. Der Quellcode von TGATE ist unter https://github.com/HaozheLiu-ST/T-GATE verfügbar.
Dieses Papier ermöglicht eine hochwertige, übertragbare NeRF-Bearbeitung durch Frequenzzerlegung. Aktuelle NeRF-Bearbeitungspipelines heben 2D-Stilisierungsergebnisse auf 3D-Szenen an, leiden jedoch unter unscharfen Ergebnissen und scheitern daran, detaillierte Strukturen zu erfassen, die durch die Inkonsistenz zwischen 2D-Bearbeitungen verursacht werden. Unser entscheidender Einblick besteht darin, dass die niederfrequenten Komponenten von Bildern nach der Bearbeitung im Vergleich zu ihren hochfrequenten Teilen multiblickkonsistenter sind. Darüber hinaus wird der Erscheinungsstil hauptsächlich in den niederfrequenten Komponenten gezeigt, während die Inhaltsdetails insbesondere in den hochfrequenten Teilen liegen. Dies motiviert uns, die Bearbeitung an den niederfrequenten Komponenten durchzuführen, was zu hochwertig bearbeiteten Szenen führt. Darüber hinaus wird die Bearbeitung im niederfrequenten Merkmalsraum durchgeführt, was eine stabile Intensitätskontrolle und eine neuartige Szenenübertragung ermöglicht. Umfassende Experimente, die an fotorealistischen Datensätzen durchgeführt wurden, zeigen die überlegene Leistungsfähigkeit der hochwertigen und übertragbaren NeRF-Bearbeitung. Die Projektseite befindet sich unter https://aigc3d.github.io/freditor.