Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
In dieser Arbeit stellen wir MagicDance vor, ein diffusionsbasiertes Modell für den Transfer von 2D-Bewegungen und Gesichtsausdrücken in anspruchsvollen menschlichen Tanzvideos. Konkret zielen wir darauf ab, menschliche Tanzvideos einer beliebigen Zielidentität zu generieren, die durch neue Pose-Sequenzen gesteuert werden, während die Identität unverändert bleibt. Zu diesem Zweck schlagen wir eine zweistufige Trainingsstrategie vor, um menschliche Bewegungen und das Erscheinungsbild (z. B. Gesichtsausdrücke, Hautton und Kleidung) zu entkoppeln. Diese besteht aus dem Vortraining eines Appearance-Control-Blocks und der Feinabstimmung eines Appearance-Pose-Joint-Control-Blocks über menschliche Tanzposen desselben Datensatzes. Unser neuartiges Design ermöglicht eine robuste Kontrolle des Erscheinungsbilds mit zeitlich konsistentem Oberkörper, Gesichtsmerkmalen und sogar dem Hintergrund. Das Modell generalisiert zudem gut auf unbekannte menschliche Identitäten und komplexe Bewegungssequenzen, ohne dass eine Feinabstimmung mit zusätzlichen Daten mit diversen menschlichen Attributen erforderlich ist, indem es das Vorwissen von Bilddiffusionsmodellen nutzt. Darüber hinaus ist das vorgeschlagene Modell einfach zu verwenden und kann als Plug-in-Modul/Erweiterung für Stable Diffusion betrachtet werden. Wir demonstrieren auch die Fähigkeit des Modells zur Zero-Shot-2D-Animationsgeneration, die nicht nur den Transfer des Erscheinungsbilds von einer Identität auf eine andere ermöglicht, sondern auch eine cartoonartige Stilisierung allein auf der Grundlage von Pose-Eingaben erlaubt. Umfangreiche Experimente belegen unsere überlegene Leistung auf dem TikTok-Datensatz.
Sprachsynthese auf Basis von Large Language Models (LLM) wird häufig in der Zero-Shot-Sprachsynthese eingesetzt. Allerdings erfordern sie umfangreiche Datenmengen und weisen dieselben Einschränkungen wie frühere autoregressive Sprachmodelle auf, darunter langsame Inferenzgeschwindigkeit und mangelnde Robustheit. Dieses Papier stellt HierSpeech++ vor, einen schnellen und leistungsstarken Zero-Shot-Sprachsynthesizer für Text-to-Speech (TTS) und Voice Conversion (VC). Wir haben bestätigt, dass hierarchische Sprachsynthese-Frameworks die Robustheit und Ausdruckskraft der synthetisierten Sprache erheblich verbessern können. Darüber hinaus verbessern wir die Natürlichkeit und Sprecherähnlichkeit der synthetisierten Sprache selbst in Zero-Shot-Sprachsynthese-Szenarien signifikant. Für Text-to-Speech verwenden wir das Text-to-Vec-Framework, das eine selbstüberwachte Sprachrepräsentation und eine F0-Repräsentation basierend auf Textrepräsentationen und Prosodie-Prompts erzeugt. Anschließend generiert HierSpeech++ Sprache aus dem erzeugten Vektor, F0 und Sprachprompt. Wir führen außerdem ein hocheffizientes Sprach-Super-Resolution-Framework von 16 kHz auf 48 kHz ein. Die experimentellen Ergebnisse zeigten, dass der hierarchische Variational Autoencoder ein leistungsstarker Zero-Shot-Sprachsynthesizer sein kann, da er LLM-basierte und diffusionsbasierte Modelle übertrifft. Darüber hinaus erreichten wir erstmals eine Zero-Shot-Sprachsynthese auf menschlichem Qualitätsniveau. Audiobeispiele und Quellcode sind verfügbar unter https://github.com/sh-lee-prml/HierSpeechpp.
Wir schlagen eine Methode vor, die eine präzise und extrem schnelle Meshextraktion aus 3D-Gaussian-Splatting ermöglicht. Gaussian-Splatting hat in letzter Zeit große Popularität erlangt, da es realistische Darstellungen liefert und gleichzeitig deutlich schneller zu trainieren ist als NeRFs. Es ist jedoch herausfordernd, ein Mesh aus den Millionen von winzigen 3D-Gaußverteilungen zu extrahieren, da diese Gaußverteilungen nach der Optimierung tendenziell unorganisiert sind und bisher keine Methode dafür vorgeschlagen wurde. Unser erster wesentlicher Beitrag ist ein Regularisierungsterm, der die Gaußverteilungen dazu anregt, sich gut an die Oberfläche der Szene anzupassen. Anschließend führen wir eine Methode ein, die diese Ausrichtung nutzt, um ein Mesh aus den Gaußverteilungen mittels Poisson-Rekonstruktion zu extrahieren. Dies ist schnell, skalierbar und bewahrt Details im Gegensatz zum Marching-Cubes-Algorithmus, der üblicherweise zur Meshextraktion aus Neuralen SDFs verwendet wird. Schließlich stellen wir eine optionale Verfeinerungsstrategie vor, die Gaußverteilungen an die Oberfläche des Meshes bindet und diese Gaußverteilungen sowie das Mesh gemeinsam durch Gaussian-Splatting-Rendering optimiert. Dies ermöglicht einfaches Bearbeiten, Skulpturieren, Rigging, Animieren, Compositing und Neubeleuchtung der Gaußverteilungen mithilfe traditioneller Software, indem das Mesh anstelle der Gaußverteilungen selbst manipuliert wird. Das Abrufen eines solchen bearbeitbaren Meshes für realistische Darstellungen erfolgt mit unserer Methode innerhalb von Minuten, verglichen mit Stunden bei den state-of-the-art Methoden für neurale SDFs, bei gleichzeitig besserer Darstellungsqualität.
Trotz beeindruckender Fortschritte in Text-zu-Bild-Diffusionsmodellen erfordert die Erzeugung hochwertiger Bilder oft das Prompt-Engineering durch erfahrene Benutzer, die Expertise in deren Anwendung entwickelt haben. In dieser Arbeit stellen wir NeuroPrompts vor, ein adaptives Framework, das automatisch die Eingabeaufforderungen eines Benutzers verbessert, um die Qualität der von Text-zu-Bild-Modellen erzeugten Bilder zu steigern. Unser Framework nutzt eingeschränkte Textdekodierung mit einem vortrainierten Sprachmodell, das angepasst wurde, um Eingabeaufforderungen zu generieren, die denen von menschlichen Prompt-Ingenieuren ähneln. Dieser Ansatz ermöglicht qualitativ hochwertigere Text-zu-Bild-Generierungen und bietet Benutzern Kontrolle über stilistische Merkmale durch die Spezifikation von Einschränkungen. Wir demonstrieren den Nutzen unseres Frameworks durch die Entwicklung einer interaktiven Anwendung zur Prompt-Verbesserung und Bildgenerierung mit Stable Diffusion. Zusätzlich führen wir Experimente mit einem umfangreichen Datensatz von menschlich erstellten Eingabeaufforderungen für die Text-zu-Bild-Generierung durch und zeigen, dass unser Ansatz automatisch verbesserte Eingabeaufforderungen erzeugt, die zu überlegener Bildqualität führen. Wir stellen unseren Code, ein Screencast-Video-Demo und eine Live-Demo-Instanz von NeuroPrompts öffentlich zur Verfügung.
Wir präsentieren eine Methode zur Erstellung interpretierbarer Konzept-Schieberegler, die eine präzise Steuerung von Attributen in Bildgenerierungen aus Diffusionsmodellen ermöglichen. Unser Ansatz identifiziert eine niedrigrangige Parameterrichtung, die einem Konzept entspricht, während die Interferenz mit anderen Attributen minimiert wird. Ein Schieberegler wird mit einer kleinen Menge von Prompts oder Beispielbildern erstellt; somit können Schieberegler-Richtungen sowohl für textuelle als auch visuelle Konzepte erzeugt werden. Konzept-Schieberegler sind Plug-and-Play: Sie können effizient kombiniert und kontinuierlich moduliert werden, was eine präzise Steuerung der Bildgenerierung ermöglicht. In quantitativen Experimenten im Vergleich zu früheren Bearbeitungstechniken zeigen unsere Schieberegler gezieltere Bearbeitungen mit geringerer Interferenz. Wir demonstrieren Schieberegler für Wetter, Alter, Stile und Ausdrücke sowie Schieberegler-Kompositionen. Wir zeigen, wie Schieberegler Latents aus StyleGAN übertragen können, um eine intuitive Bearbeitung visueller Konzepte zu ermöglichen, für die eine textuelle Beschreibung schwierig ist. Wir stellen außerdem fest, dass unsere Methode dazu beitragen kann, anhaltende Qualitätsprobleme in Stable Diffusion XL zu beheben, einschließlich der Reparatur von Objektverformungen und der Korrektur verzerrter Hände. Unser Code, Daten und trainierte Schieberegler sind unter https://sliders.baulab.info/ verfügbar.
Wir stellen PhysGaussian vor, eine neue Methode, die physikalisch fundierte Newtonsche Dynamik nahtlos in 3D-Gauss-Verteilungen integriert, um hochwertige neuartige Bewegungs-synthesen zu erreichen. Durch den Einsatz einer speziellen Material-Point-Methode (MPM) erweitert unser Ansatz 3D-Gauss-Kerne mit physikalisch bedeutsamen kinematischen Verformungen und mechanischen Spannungsattributen, die alle in Übereinstimmung mit den Prinzipien der Kontinuumsmechanik entwickelt werden. Ein entscheidendes Merkmal unserer Methode ist die nahtlose Integration zwischen physikalischer Simulation und visuellem Rendering: Beide Komponenten verwenden dieselben 3D-Gauss-Kerne als ihre diskreten Repräsentationen. Dadurch entfällt die Notwendigkeit für Dreiecks-/Tetraeder-Netzgenerierung, Marching Cubes, „Cage Meshes“ oder andere geometrische Einbettungen, was das Prinzip „Was du siehst, ist was du simulierst (WS^2)“ hervorhebt. Unsere Methode zeigt außergewöhnliche Vielseitigkeit bei einer Vielzahl von Materialien – einschließlich elastischer Körper, Metalle, nicht-Newtonscher Flüssigkeiten und granulärer Materialien – und demonstriert ihre starken Fähigkeiten bei der Erzeugung vielfältiger visueller Inhalte mit neuen Blickwinkeln und Bewegungen. Unsere Projektseite finden Sie unter: https://xpandora.github.io/PhysGaussian/
Wir präsentieren ein Pose-Free Large Reconstruction Model (PF-LRM) zur Rekonstruktion eines 3D-Objekts aus wenigen unpositionierten Bildern, selbst bei geringer visueller Überlappung, während gleichzeitig die relativen Kameraposen in ~1,3 Sekunden auf einer einzelnen A100-GPU geschätzt werden. PF-LRM ist eine hoch skalierbare Methode, die Self-Attention-Blöcke nutzt, um Informationen zwischen 3D-Objekt-Tokens und 2D-Bild-Tokens auszutauschen; wir generieren eine grobe Punktwolke für jede Ansicht und verwenden dann einen differenzierbaren Perspective-n-Point (PnP)-Solver, um die Kameraposen zu ermitteln. Wenn das Modell mit einer großen Menge an Multi-View-Daten von ~1M Objekten trainiert wird, zeigt PF-LRM eine starke Fähigkeit zur generalisierenden Anwendung auf verschiedene Datensätze und übertrifft Baseline-Methoden deutlich in Bezug auf die Genauigkeit der Posenschätzung und die Qualität der 3D-Rekonstruktion auf verschiedenen unbekannten Evaluierungsdatensätzen. Wir demonstrieren auch die Anwendbarkeit unseres Modells in nachgelagerten Text-/Bild-zu-3D-Aufgaben mit schneller Feedforward-Inferenz. Unsere Projektwebsite ist unter https://totoro97.github.io/pf-lrm zu finden.
Jüngste Fortschritte in der Text-zu-Video-Generierung haben die Leistungsfähigkeit von Diffusionsmodellen genutzt, um visuell ansprechende Inhalte auf der Grundlage von Textanweisungen zu erstellen. Allerdings stoßen diese Ansätze häufig auf hohe Rechenkosten und haben Schwierigkeiten, Videos mit kohärenten physikalischen Bewegungen zu erzeugen. Um diese Probleme zu lösen, schlagen wir GPT4Motion vor, ein trainingsfreies Framework, das die Planungsfähigkeit großer Sprachmodelle wie GPT, die Stärke der physikalischen Simulation von Blender und die hervorragende Bildgenerierungsfähigkeit von Text-zu-Bild-Diffusionsmodellen nutzt, um die Qualität der Videosynthese zu verbessern. Konkret verwendet GPT4Motion GPT-4, um ein Blender-Skript basierend auf einer Benutzertextanweisung zu generieren, das die integrierte Physik-Engine von Blender anweist, grundlegende Szenenkomponenten zu erstellen, die kohärente physikalische Bewegungen über die Frames hinweg erfassen. Diese Komponenten werden dann in Stable Diffusion eingegeben, um ein Video zu generieren, das mit der Textanweisung übereinstimmt. Experimentelle Ergebnisse in drei grundlegenden physikalischen Bewegungsszenarien, darunter das Fallen und Kollidieren starrer Objekte, das Drapieren und Schwingen von Stoffen sowie das Fließen von Flüssigkeiten, zeigen, dass GPT4Motion hochwertige Videos effizient erzeugen kann, wobei Bewegungskohärenz und Entitätskonsistenz erhalten bleiben. GPT4Motion bietet neue Einblicke in die Text-zu-Video-Forschung, verbessert deren Qualität und erweitert die Perspektiven für zukünftige Untersuchungen.