Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Kontrastives Lernen hat sich als eine transformative Methode zur Erlangung effektiver visueller Repräsentationen durch die Ausrichtung von Bild- und Texteinbettungen etabliert. Die paarweise Ähnlichkeitsberechnung im kontrastiven Verlust zwischen Bild- und Textpaaren stellt jedoch eine rechnerische Herausforderung dar. Dieses Papier präsentiert ein neuartiges schwach überwachtes Vor-Training von Vision-Modellen auf webbasierten Bild-Text-Daten. Die vorgeschlagene Methode konzipiert das Vor-Training auf Bild-Text-Daten als eine Klassifizierungsaufgabe um. Dadurch entfällt die Notwendigkeit für paarweise Ähnlichkeitsberechnungen im kontrastiven Verlust und erreicht eine bemerkenswerte 2,7-fache Beschleunigung der Trainingsgeschwindigkeit im Vergleich zum kontrastiven Lernen auf webbasierten Daten. Durch umfangreiche Experimente, die verschiedene Vision-Aufgaben umfassen, einschließlich Detektion und Segmentierung, zeigen wir, dass die vorgeschlagene Methode eine hohe Repräsentationsqualität beibehält. Unser Quellcode zusammen mit vorab trainierten Modellgewichten und Trainingsanleitungen ist verfügbar unter https://github.com/apple/corenet.
Wir schlagen Pure and Lightning ID Customization (PuLID) vor, eine neuartige, abstimmmungsfreie ID-Anpassungsmethode für die Generierung von Text-zu-Bild. Durch die Integration eines Lightning T2I-Zweigs mit einem Standard-Diffusionszweig führt PuLID sowohl einen kontrastiven Ausrichtungsverlust als auch einen genauen ID-Verlust ein, um Störungen am ursprünglichen Modell zu minimieren und eine hohe ID- Treue sicherzustellen. Experimente zeigen, dass PuLID eine überlegene Leistung sowohl in der ID-Treue als auch in der Bearbeitbarkeit erzielt. Eine weitere attraktive Eigenschaft von PuLID ist, dass die Bildelemente (z.B. Hintergrund, Beleuchtung, Komposition und Stil) vor und nach der ID-Einfügung so konsistent wie möglich gehalten werden. Codes und Modelle werden unter https://github.com/ToTheBeginning/PuLID verfügbar sein.
Der Erfolg des kontrastiven Sprachbild-Vortrainings (CLIP) beruht auf der Überwachung durch die Zuordnung von Bildern und Bildunterschriften, die in von Web-Crawlern gesammelten Daten oft ungenau ist. Wir stellen Mixture of Data Experts (MoDE) vor und lernen ein System von CLIP-Datenexperten durch Clustering. Jeder Datenexperte wird auf einem Datencluster trainiert und ist weniger empfindlich gegenüber falsch negativen Störgeräuschen in anderen Clustern. Zur Inferenzzeit kombinieren wir ihre Ausgaben, indem wir Gewichte anwenden, die durch die Korrelation zwischen Aufgabenmetadaten und Clusterbedingungen bestimmt werden. Um die Korrelation präzise zu schätzen, sollten die Proben in einem Cluster semantisch ähnlich sein, aber die Anzahl der Datenexperten sollte dennoch für das Training und die Inferenz vernünftig sein. Daher berücksichtigen wir die Ontologie in menschlicher Sprache und schlagen vor, feinkörnige Clusterzentren zu verwenden, um jeden Datenexperten auf grober Ebene zu repräsentieren. Experimentelle Studien zeigen, dass vier CLIP-Datenexperten auf ViT-B/16 das ViT-L/14 von OpenAI CLIP und OpenCLIP bei der Null-Shot-Bildklassifizierung übertreffen, jedoch mit weniger (<35\%) Trainingskosten. In der Zwischenzeit kann MoDE alle Datenexperten asynchron trainieren und flexibel neue Datenexperten einschließen. Der Code ist verfügbar unter https://github.com/facebookresearch/MetaCLIP/tree/main/mode.
Die rasante Entwicklung von Diffusionsmodellen hat vielfältige Anwendungen ausgelöst. Die text-zu-Bild-Generierung unter Beibehaltung der Identität (ID-T2I) hat insbesondere aufgrund ihrer breiten Anwendungsszenarien wie KI-Porträts und Werbung erhebliche Aufmerksamkeit erhalten. Obwohl bestehende ID-T2I-Methoden beeindruckende Ergebnisse gezeigt haben, bleiben mehrere Schlüsselherausforderungen bestehen: (1) Es ist schwierig, die Identitätsmerkmale von Referenzporträts genau beizubehalten, (2) Die generierten Bilder weisen einen Mangel an ästhetischer Anziehungskraft auf, insbesondere bei der Durchsetzung der Identitätsbewahrung, und (3) Es gibt eine Einschränkung, die nicht gleichzeitig mit LoRA-basierten und Adapter-basierten Methoden kompatibel ist. Um diese Probleme anzugehen, präsentieren wir ID-Aligner, ein allgemeines Rückkopplungs-Lernrahmenwerk zur Verbesserung der Leistung von ID-T2I. Um verlorene Identitätsmerkmale zu lösen, führen wir eine Feinabstimmung der Identitätskonsistenzbelohnung ein, um das Feedback von Gesichtserkennungs- und -erkennungsmodellen zu nutzen, um die generierte Identitätserhaltung zu verbessern. Darüber hinaus schlagen wir eine Feinabstimmung der Identitätsästhetikbelohnung vor, die Belohnungen aus menschlich annotierten Präferenzdaten und automatisch erstelltem Feedback zur Charakterstrukturerzeugung nutzt, um ästhetische Abstimmungssignale bereitzustellen. Dank seines universellen Rückkopplungsfeinabstimmungsrahmens kann unsere Methode problemlos auf sowohl LoRA- als auch Adapter-Modelle angewendet werden und dabei konsistente Leistungssteigerungen erzielen. Umfangreiche Experimente mit SD1.5- und SDXL-Diffusionsmodellen bestätigen die Wirksamkeit unseres Ansatzes. Projektpage: \url{https://idaligner.github.io/}
Das Aufkommen von Diffusionsmodellen hat den Fortschritt in der Bild- und Videogenerierung erheblich vorangetrieben. In letzter Zeit wurden einige Anstrengungen unternommen, um die kontrollierte Videogenerierung voranzutreiben, darunter die Text-zu-Video-Generierung und die Steuerung der Videobewegung, wobei die Steuerung der Kamerabewegung ein wichtiges Thema ist. Allerdings basieren bestehende Methoden zur Kamerasteuerung auf dem Training eines zeitlichen Kameramoduls und erfordern erhebliche Rechenressourcen aufgrund der großen Anzahl von Parametern in Videogenerierungsmodellen. Darüber hinaus definieren bestehende Methoden die Kamerabewegungstypen während des Trainings vor, was ihre Flexibilität bei der Kamerasteuerung einschränkt. Daher schlagen wir zur Reduzierung der Trainingskosten und zur Erreichung einer flexiblen Kamerasteuerung COMD vor, ein neuartiges trainingsfreies Modell zur Übertragung von Videobewegungen, das Kamerabewegungen und Objektbewegungen in Quellvideos trennt und die extrahierten Kamerabewegungen auf neue Videos überträgt. Zunächst schlagen wir eine One-Shot-Kamerabewegungs-Entflechtungsmethode vor, um die Kamerabewegung aus einem einzelnen Quellvideo zu extrahieren, die beweglichen Objekte vom Hintergrund zu trennen und die Kamerabewegung in der Region der bewegten Objekte basierend auf der Bewegung im Hintergrund durch Lösung einer Poisson-Gleichung zu schätzen. Darüber hinaus schlagen wir eine Few-Shot-Kamerabewegungs-Entflechtungsmethode vor, um die gemeinsame Kamerabewegung aus mehreren Videos mit ähnlichen Kamerabewegungen zu extrahieren, die eine fensterbasierte Clustering-Technik verwendet, um die gemeinsamen Merkmale in den zeitlichen Aufmerksamkeitskarten mehrerer Videos zu extrahieren. Schließlich schlagen wir eine Bewegungskombinationsmethode vor, um verschiedene Arten von Kamerabewegungen zusammenzuführen, was unserem Modell eine kontrollierbarere und flexiblere Kamerasteuerung ermöglicht. Umfangreiche Experimente zeigen, dass unser trainingsfreier Ansatz die Kamera-Objekt-Bewegung effektiv entkoppeln kann und die entkoppelte Kamerabewegung auf eine Vielzahl von kontrollierten Videogenerierungsaufgaben anwenden kann, um eine flexible und vielfältige Kamerasteuerung zu erreichen.
Diffusionsmodelle haben signifikante Fortschritte bei textgeführten Synthesen erzielt. Die Bearbeitung von benutzerbereitgestellten Bildern bleibt jedoch eine Herausforderung, da der hochdimensionale Rauscheingaberaum von Diffusionsmodellen nicht natürlicherweise für die Bildumkehr oder räumliche Bearbeitung geeignet ist. In dieser Arbeit schlagen wir eine Bildrepräsentation vor, die die räumliche Bearbeitung von Eingabebildern mithilfe eines Diffusionsmodells fördert. Konkret lernen wir, eine Eingabe in "Bildelemente" zu kodieren, die ein Eingabebild treu rekonstruieren können. Diese Elemente können intuitiv von einem Benutzer bearbeitet werden und werden von einem Diffusionsmodell in realistische Bilder decodiert. Wir zeigen die Wirksamkeit unserer Darstellung bei verschiedenen Bildbearbeitungsaufgaben wie Objektgrößenänderung, Neuordnung, Ziehen, Deokklusion, Entfernung, Variation und Bildkomposition. Projektseite: https://jitengmu.github.io/Editable_Image_Elements/
Die menschliche Freistellung ist eine grundlegende Aufgabe in der Bild- und Videobearbeitung, bei der Vordergrundpixel des Menschen aus der Eingabe extrahiert werden. Frühere Arbeiten verbessern entweder die Genauigkeit durch zusätzliche Anleitung oder die zeitliche Konsistenz einer einzelnen Instanz über Frames hinweg. Wir schlagen ein neues Framework MaGGIe vor, Maskiertes Geführtes Schrittweises Menschliches Instanz-Freistellen, das Alpha-Masken progressiv für jede menschliche Instanz vorhersagt, während die Rechenkosten, Präzision und Konsistenz erhalten bleiben. Unsere Methode nutzt moderne Architekturen, einschließlich Transformer-Aufmerksamkeit und spärer Faltung, um alle Instanz-Masken gleichzeitig ohne explosionsartigen Speicherbedarf und Latenz auszugeben. Obwohl die Inferenzkosten in Szenarien mit mehreren Instanzen konstant gehalten werden, erzielt unser Framework robuste und vielseitige Leistungen auf unseren vorgeschlagenen synthetisierten Benchmarks. Mit den Benchmarks für die hochwertige Bild- und Videofreistellung wird der neuartige Multi-Instanz-Syntheseansatz aus öffentlich verfügbaren Quellen eingeführt, um die Verallgemeinerung von Modellen in realen Szenarien zu erhöhen.
Spekulatives Decodieren hat sich als eine leistungsstarke Methode zur Verbesserung von Latenz und Durchsatz bei der Bereitstellung großer Sprachmodelle etabliert. Die meisten bestehenden Implementierungen konzentrieren sich jedoch darauf, eine einzelne Sequenz zu generieren. Generative KI-Anwendungen in der realen Welt erfordern oft mehrere Antworten, und die Durchführung des spekulativen Decodierens in einem Stapelmodus unter Beibehaltung seiner Latenzvorteile birgt nicht-triviale Herausforderungen. Dieser Artikel beschreibt ein System des stapelweisen spekulativen Decodierens, das einen neuen Stand der Technik in Bezug auf die Latenz bei der Mehrfachsequenzgenerierung setzt und eine überlegene GPU-Auslastung sowie Qualität der Generierungen innerhalb eines Zeitbudgets aufzeigt. Zum Beispiel wird für ein Modell der Größe 7,8 Milliarden auf einer einzelnen A100 GPU und mit einer Stapelgröße von 8 jede Sequenz mit einer durchschnittlichen Geschwindigkeit von 5,8 ms pro Token generiert, wobei der Gesamtdurchsatz bei 1,1K Tokens pro Sekunde liegt. Diese Ergebnisse repräsentieren den Stand der Technik in Bezug auf die Latenz und eine 2,15-fache Beschleunigung gegenüber optimiertem regulärem Decodieren. Innerhalb eines Zeitbudgets, das reguläres Decodieren nicht abschließt, ist unser System in der Lage, Sequenzen mit einer HumanEval Pass@First-Rate von 43% und Pass@All-Rate von 61% zu generieren, was bei weitem über das hinausgeht, was mit spekulativem Decodieren von Einzelsequenzen möglich ist. Unsere Spitzen-GPU-Auslastung während des Decodierens erreicht bis zu 15,8%, mehr als das 3-fache des höchsten Wertes des regulären Decodierens und etwa 10-fach des spekulativen Decodierens von Einzelsequenzen.
In-Context Learning (ICL)-Ansätze nutzen in der Regel Aufforderungen, um die Generierung von Sprachmodellen nur durch Decoder auf Referenzinformationen zu konditionieren. Die Echtzeitverarbeitung eines Kontexts ist aufgrund der quadratischen Kosten von Self-Attention-Operationen ineffizient, und ein Zwischenspeichern ist wünschenswert. Das Zwischenspeichern von Transformer-Zuständen kann jedoch leicht fast so viel Platz wie die Modellparameter erfordern. Wenn der richtige Kontext nicht im Voraus bekannt ist, kann das Zwischenspeichern von ICL herausfordernd sein. Diese Arbeit befasst sich mit diesen Einschränkungen, indem sie Modelle einführt, die, inspiriert von der Encoder-Decoder-Architektur, Kreuz-Aufmerksamkeit verwenden, um die Generierung auf Referenztext zu konditionieren, ohne die Aufforderung. Genauer gesagt nutzen wir vortrainierte Decoder-only-Modelle und trainieren nur eine kleine Anzahl von zusätzlichen Schichten. Wir verwenden Frage-Antwort (QA) als Testumgebung, um die Fähigkeit unserer Modelle zur bedingten Generierung zu bewerten, und stellen fest, dass sie ICL übertreffen, vergleichbar mit feinabgestimmten aufgeforderten Sprachmodellen sind und den Speicherplatz im Vergleich zur Standard-KV-Zwischenspeicherung um zwei Größenordnungen drastisch reduzieren.