Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Dieses Paper enthüllt eine neuartige lineare Eigenschaft, die ausschließlich für Transformer-Decodierer gilt, einschließlich Modelle wie GPT, LLaMA, OPT, BLOOM und andere. Wir analysieren die Einbettungstransformationen zwischen aufeinanderfolgenden Schichten und decken eine nahezu perfekte lineare Beziehung auf (Prokrustes-Ähnlichkeitsscore von 0,99). Die Linearität nimmt jedoch ab, wenn die Restkomponente aufgrund einer konstant niedrigen Ausgangsnorm der Transformer-Schicht entfernt wird. Unsere Experimente zeigen, dass das Entfernen oder lineare Approximieren einiger der linearsten Blöcke von Transformern den Verlust oder die Modellleistung nicht signifikant beeinflusst. Darüber hinaus führen wir in unseren Pretraining-Experimenten mit kleineren Modellen eine Regularisierung auf Basis der Kosinus-Ähnlichkeit ein, die darauf abzielt, die Schichtenlinearität zu reduzieren. Diese Regularisierung verbessert Leistungsmetriken auf Benchmarks wie Tiny Stories und SuperGLUE und verringert erfolgreich die Linearität der Modelle. Diese Studie stellt das bestehende Verständnis von Transformer-Architekturen in Frage und legt nahe, dass ihr Betrieb möglicherweise linearer ist als bisher angenommen.
Die Key-Value (KV)-Zwischenspeicherung spielt eine wesentliche Rolle bei der Beschleunigung der Decodierung für auf Transformer basierende autoregressive große Sprachmodelle (LLMs). Allerdings kann der Speicherbedarf für die KV-Zwischenspeicherung bei langen Sequenzlängen und großen Batch-Größen prohibitiv werden. Seit der Erfindung des Transformers wurden zwei der effektivsten Maßnahmen zur Reduzierung der Größe des KV-Zwischenspeichers entdeckt: die Multi-Query-Aufmerksamkeit (MQA) und ihre Verallgemeinerung, die Gruppen-Query-Aufmerksamkeit (GQA). MQA und GQA ändern beide das Design des Aufmerksamkeitsblocks so, dass mehrere Abfrageköpfe einen einzelnen Schlüssel-/Wertekopf gemeinsam nutzen können, wodurch die Anzahl der verschiedenen Schlüssel-/Werteköpfe um einen großen Faktor reduziert wird, während die Genauigkeit nur minimal beeinträchtigt wird. In diesem Papier zeigen wir, dass es möglich ist, die Multi-Query-Aufmerksamkeit einen Schritt weiter zu gehen, indem auch Schlüssel- und Werteköpfe zwischen benachbarten Schichten gemeinsam genutzt werden, was zu einem neuen Aufmerksamkeitsdesign führt, das wir Cross-Layer-Aufmerksamkeit (CLA) nennen. Mit CLA stellen wir fest, dass es möglich ist, die Größe des KV-Zwischenspeichers um das 2-fache zu reduzieren, während die Genauigkeit fast gleich bleibt wie bei unveränderter MQA. In Experimenten zur Schulung von 1B- und 3B-Parametermodellen von Grund auf zeigen wir, dass CLA eine Pareto-Verbesserung gegenüber den Speicher-/Genauigkeits-Kompromissen bietet, die mit traditioneller MQA möglich sind, und die Inferenz mit längeren Sequenzlängen und größeren Batch-Größen ermöglicht, als es sonst möglich wäre.
Weltmodelle stellen einen vielversprechenden Ansatz dar, um Trainingsverfahren für Verstärkungslernagenten auf sichere und sample-effiziente Weise zu entwickeln. Aktuelle Weltmodelle arbeiten hauptsächlich mit Sequenzen diskreter latenter Variablen, um Umweltdynamiken zu modellieren. Diese Kompression in eine kompakte diskrete Darstellung kann jedoch visuelle Details vernachlässigen, die für das Verstärkungslernen wichtig sind. Gleichzeitig sind Diffusionsmodelle zu einem dominierenden Ansatz für die Bildgenerierung geworden und stellen etablierte Methoden zur Modellierung diskreter Latenzen in Frage. Angespornt durch diesen Paradigmenwechsel stellen wir DIAMOND (DIffusion As a Model Of eNvironment Dreams) vor, einen Verstärkungslernagenten, der in einem Diffusionsweltmodell trainiert wird. Wir analysieren die wesentlichen Designentscheidungen, die erforderlich sind, um Diffusion für die Weltmodellierung geeignet zu machen, und zeigen auf, wie verbesserte visuelle Details zu einer besseren Leistung des Agenten führen können. DIAMOND erreicht einen durchschnittlichen menschlich normalisierten Score von 1,46 im wettbewerbsfähigen Atari 100k Benchmark; ein neuer Bestwert für Agenten, die ausschließlich innerhalb eines Weltmodells trainiert wurden. Um zukünftige Forschung zur Verwendung von Diffusion für die Weltmodellierung zu fördern, veröffentlichen wir unseren Code, Agenten und spielbaren Weltmodelle unter https://github.com/eloialonso/diamond.
Aktuelle Methoden zur Gesichtsimitation und -austausch stützen sich hauptsächlich auf GAN-Frameworks, aber in letzter Zeit hat sich der Fokus auf vorab trainierte Diffusionsmodelle für deren überlegene Generierungsfähigkeiten verlagert. Das Training dieser Modelle ist jedoch ressourcenintensiv, und die Ergebnisse haben noch nicht zufriedenstellende Leistungsniveaus erreicht. Um dieses Problem anzugehen, stellen wir Face-Adapter vor, einen effizienten und effektiven Adapter, der für präzise und hochwertige Bearbeitung von Gesichtern für vorab trainierte Diffusionsmodelle entwickelt wurde. Wir beobachten, dass sowohl die Aufgaben der Gesichtsimitation/-austausch im Wesentlichen Kombinationen aus Zielstruktur, ID und Attribut beinhalten. Unser Ziel ist es, die Steuerung dieser Faktoren ausreichend zu entkoppeln, um beide Aufgaben in einem Modell zu erreichen. Speziell enthält unsere Methode: 1) Einen räumlichen Bedingungsgenerator, der präzise Landmarken und Hintergrund liefert; 2) Einen Plug-and-Play-Identitätscodierer, der Gesichtseinbettungen in den Textraum durch einen Transformer-Decoder überträgt; 3) Einen Attributregler, der räumliche Bedingungen und detaillierte Attribute integriert. Face-Adapter erzielt vergleichbare oder sogar überlegene Leistung in Bezug auf Bewegungssteuerungspräzision, ID-Bewahrungsfähigkeit und Generierungsqualität im Vergleich zu vollständig feinabgestimmten Gesichtsimitations/-austauschmodellen. Darüber hinaus integriert sich Face-Adapter nahtlos mit verschiedenen StableDiffusion-Modellen.
Das Feld der Bildzuordnung verzeichnet eine kontinuierliche Entwicklung neuartiger erlernbarer Merkmalszuordnungstechniken, die eine stetige Leistungsverbesserung auf herkömmlichen Benchmarks zeigen. Unsere Untersuchung zeigt jedoch, dass trotz dieser Fortschritte ihr Potenzial für Anwendungen im echten Leben durch ihre begrenzten Verallgemeinerungsfähigkeiten auf neue Bildbereiche eingeschränkt ist. In diesem Artikel stellen wir OmniGlue vor, den ersten erlernbaren Bildzuordner, der mit der Verallgemeinerung als Kernprinzip konzipiert ist. OmniGlue nutzt breites Wissen aus einem Vision-Grundlagenmodell, um den Merkmalszuordnungsprozess zu lenken und die Verallgemeinerung auf Bereiche zu verbessern, die zur Trainingszeit nicht gesehen wurden. Darüber hinaus schlagen wir einen neuartigen Keypoint-Positions-gesteuerten Aufmerksamkeitsmechanismus vor, der räumliche und Erscheinungsinformationen entwirrt und zu verbesserten Zuordnungsbeschreibern führt. Wir führen umfassende Experimente an einer Reihe von 7 Datensätzen mit unterschiedlichen Bildbereichen durch, darunter Szenen-, objektorientierte und Luftbilder. Die neuartigen Komponenten von OmniGlue führen zu relativen Gewinnen in unbekannten Bereichen von 20,9% im Vergleich zu einem direkt vergleichbaren Referenzmodell und übertreffen auch die kürzlich vorgestellte LightGlue-Methode um 9,5% relativ. Code und Modell sind unter https://hwjiang1510.github.io/OmniGlue verfügbar.
Wir präsentieren personalisierte Residuen und lokalisierte, auf Aufmerksamkeit basierende Stichproben für eine effiziente, konzeptgesteuerte Generierung unter Verwendung von Text-zu-Bild-Diffusionsmodellen. Unsere Methode stellt zunächst Konzepte dar, indem sie die Gewichte eines vorab trainierten, textkonditionierten Diffusionsmodells einfriert und niedrigrangige Residuen für eine kleine Untergruppe der Schichten des Modells lernt. Der auf Residuen basierende Ansatz ermöglicht dann direkt die Anwendung unserer vorgeschlagenen Stichprobentechnik, die die gelernten Residuen nur in Bereichen anwendet, in denen das Konzept über eine Kreuz-Aufmerksamkeit lokalisiert ist, und die ursprünglichen Diffusionsgewichte in allen anderen Regionen anwendet. Die lokalisierte Stichprobe kombiniert daher die gelernte Identität des Konzepts mit dem bestehenden generativen Prior des zugrunde liegenden Diffusionsmodells. Wir zeigen, dass personalisierte Residuen die Identität eines Konzepts effektiv in ~3 Minuten auf einer einzelnen GPU ohne die Verwendung von Regularisierungsbildern und mit weniger Parametern als frühere Modelle erfassen, und lokalisierte Stichproben ermöglichen die Verwendung des ursprünglichen Modells als starken Prior für große Teile des Bildes.