Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Personalisierung hat sich als ein zentraler Aspekt im Bereich der generativen KI etabliert, der die Synthese von Personen in verschiedenen Kontexten und Stilen ermöglicht, während gleichzeitig eine hohe Detailtreue zu ihren Identitäten gewahrt bleibt. Der Prozess der Personalisierung birgt jedoch inhärente Herausforderungen in Bezug auf Zeit- und Speicheranforderungen. Das Feinabstimmen jedes personalisierten Modells erfordert einen erheblichen GPU-Zeitaufwand, und das Speichern eines personalisierten Modells pro Person kann in Bezug auf die Speicherkapazität anspruchsvoll sein. Um diese Herausforderungen zu bewältigen, schlagen wir HyperDreamBooth vor – ein Hypernetzwerk, das in der Lage ist, effizient einen kleinen Satz personalisierter Gewichte aus einem einzelnen Bild einer Person zu generieren. Durch die Integration dieser Gewichte in das Diffusionsmodell, kombiniert mit schnellem Feinabstimmen, kann HyperDreamBooth das Gesicht einer Person in verschiedenen Kontexten und Stilen mit hoher Detailgenauigkeit erzeugen, während gleichzeitig das entscheidende Wissen des Modells über diverse Stile und semantische Modifikationen bewahrt wird. Unsere Methode erreicht die Personalisierung von Gesichtern in etwa 20 Sekunden, was 25-mal schneller ist als DreamBooth und 125-mal schneller als Textual Inversion, wobei nur ein einziges Referenzbild verwendet wird, bei gleicher Qualität und Stilvielfalt wie DreamBooth. Zudem erzeugt unsere Methode ein Modell, das 10.000-mal kleiner ist als ein normales DreamBooth-Modell. Projektseite: https://hyperdreambooth.github.io
Text-to-Image (T2I)-Personalisierung ermöglicht es Benutzern, den kreativen Bildgenerierungsprozess zu steuern, indem sie ihre eigenen visuellen Konzepte in natürlichen Sprachbefehlen kombinieren. Kürzlich haben encoderbasierte Techniken als neuer effektiver Ansatz für die T2I-Personalisierung an Bedeutung gewonnen, wodurch der Bedarf an mehreren Bildern und langen Trainingszeiten reduziert wird. Die meisten bestehenden Encoder sind jedoch auf einen Einzelklassenbereich beschränkt, was ihre Fähigkeit zur Handhabung diverser Konzepte einschränkt. In dieser Arbeit schlagen wir eine domänenunabhängige Methode vor, die keinen spezialisierten Datensatz oder Vorwissen über die personalisierten Konzepte erfordert. Wir führen eine neuartige, kontrastbasierte Regularisierungstechnik ein, um eine hohe Treue zu den Merkmalen des Zielkonzepts beizubehalten, während die vorhergesagten Embeddings in editierbaren Bereichen des latenten Raums gehalten werden, indem die vorhergesagten Token in Richtung ihrer nächsten vorhandenen CLIP-Token geschoben werden. Unsere experimentellen Ergebnisse demonstrieren die Effektivität unseres Ansatzes und zeigen, dass die gelernten Token semantisch aussagekräftiger sind als die von nicht regularisierten Modellen vorhergesagten Token. Dies führt zu einer besseren Repräsentation, die state-of-the-art Leistung erzielt und gleichzeitig flexibler ist als bisherige Methoden.
Die Erstellung von Videos für visuelles Storytelling kann ein mühsamer und komplexer Prozess sein, der in der Regel entweder Live-Action-Aufnahmen oder die Rendering von Grafikanimationen erfordert. Um diese Herausforderungen zu umgehen, besteht unsere zentrale Idee darin, die Fülle vorhandener Videoclips zu nutzen und ein kohärentes Storytelling-Video durch die Anpassung ihrer Erscheinungsbilder zu synthetisieren. Dies erreichen wir durch die Entwicklung eines Frameworks, das aus zwei funktionalen Modulen besteht: (i) Motion Structure Retrieval, das Videokandidaten mit gewünschten Szenen- oder Bewegungszusammenhängen bereitstellt, die durch Abfragetexte beschrieben werden, und (ii) Structure-Guided Text-to-Video Synthesis, das plotorientierte Videos unter Anleitung der Bewegungsstruktur und Textprompts generiert. Für das erste Modul nutzen wir ein vorhandenes Video-Retrieval-System und extrahieren Videotiefen als Bewegungsstruktur. Für das zweite Modul schlagen wir ein kontrollierbares Videogenerierungsmodell vor, das flexible Steuerungsmöglichkeiten über Struktur und Charaktere bietet. Die Videos werden durch die Befolgung der strukturellen Anleitung und der Erscheinungsanweisung synthetisiert. Um visuelle Konsistenz über die Clips hinweg sicherzustellen, schlagen wir einen effektiven Ansatz zur Konzeptpersonalisierung vor, der die Spezifikation der gewünschten Charakteridentitäten durch Textprompts ermöglicht. Umfangreiche Experimente zeigen, dass unser Ansatz signifikante Vorteile gegenüber verschiedenen bestehenden Baselines aufweist.
In diesem Artikel präsentieren wir einen neuartigen Ansatz zur Verbesserung der Qualität und Konsistenz generierter Ausgaben von großskaligen vortrainierten Sprachmodellen (LLMs). Selbstkonsistenz hat sich als effektive Methode für Prompts mit festen Antworten erwiesen, bei der die Antwort mit den meisten Stimmen ausgewählt wird. In diesem Artikel führen wir einen verallgemeinerten Rahmen für Selbstkonsistenz ein, der deren Anwendbarkeit über Probleme mit festen Antworten hinaus erweitert. Durch umfangreiche Simulationen zeigen wir, dass unser Ansatz konsequent die optimale oder nahezu optimale Generierung aus einer Reihe von Kandidaten ermittelt. Wir schlagen außerdem leichte, parameterfreie Ähnlichkeitsfunktionen vor, die signifikante und konsistente Verbesserungen bei Code-Generierung, Autoformalierung und Zusammenfassungsaufgaben zeigen, selbst ohne Zugriff auf Token-Wahrscheinlichkeiten. Unser Verfahren verursacht minimalen Rechenaufwand und erfordert keine zusätzlichen Reranker-Modelle oder Modifikationen am bestehenden Modell.