TCAN: Animieren von menschlichen Bildern mit zeitlich konsistenter Pose-Anleitung unter Verwendung von Diffusionsmodellen
TCAN: Animating Human Images with Temporally Consistent Pose Guidance using Diffusion Models
July 12, 2024
Autoren: Jeongho Kim, Min-Jung Kim, Junsoo Lee, Jaegul Choo
cs.AI
Zusammenfassung
Pose-getriebene Modelle zur Diffusion der Animation von menschlichen Bildern haben bemerkenswerte Fähigkeiten bei der realistischen Synthese von menschlichen Videos gezeigt. Trotz der vielversprechenden Ergebnisse früherer Ansätze bestehen weiterhin Herausforderungen darin, eine zeitlich konsistente Animation zu erreichen und die Robustheit mit handelsüblichen Pose-Detektoren sicherzustellen. In diesem Artikel präsentieren wir TCAN, eine pose-getriebene Methode zur Animation von menschlichen Bildern, die robust gegen fehlerhafte Posen ist und über die Zeit konsistent bleibt. Im Gegensatz zu früheren Methoden nutzen wir das vortrainierte ControlNet ohne Feinabstimmung, um von seinem umfangreichen vorausgesetzten Wissen aus zahlreichen Pose-Bild-Beschreibungs-Paaren zu profitieren. Um das ControlNet einzufrieren, passen wir LoRA an die UNet-Schichten an, was dem Netzwerk ermöglicht, den latenten Raum zwischen den Pose- und Erscheinungsmerkmalen auszurichten. Darüber hinaus verbessern wir durch die Einführung einer zusätzlichen zeitlichen Schicht in das ControlNet die Robustheit gegen Ausreißer des Pose-Detektors. Durch die Analyse von Aufmerksamkeitskarten über die zeitliche Achse hinweg haben wir auch eine neuartige Temperaturkarte entworfen, die auf Pose-Informationen basiert und einen statischeren Hintergrund ermöglicht. Umfangreiche Experimente zeigen, dass die vorgeschlagene Methode vielversprechende Ergebnisse bei der Videosynthese erzielen kann, die verschiedene Posen umfassen, wie z.B. Chibi. Projektseite: https://eccv2024tcan.github.io/
English
Pose-driven human-image animation diffusion models have shown remarkable
capabilities in realistic human video synthesis. Despite the promising results
achieved by previous approaches, challenges persist in achieving temporally
consistent animation and ensuring robustness with off-the-shelf pose detectors.
In this paper, we present TCAN, a pose-driven human image animation method that
is robust to erroneous poses and consistent over time. In contrast to previous
methods, we utilize the pre-trained ControlNet without fine-tuning to leverage
its extensive pre-acquired knowledge from numerous pose-image-caption pairs. To
keep the ControlNet frozen, we adapt LoRA to the UNet layers, enabling the
network to align the latent space between the pose and appearance features.
Additionally, by introducing an additional temporal layer to the ControlNet, we
enhance robustness against outliers of the pose detector. Through the analysis
of attention maps over the temporal axis, we also designed a novel temperature
map leveraging pose information, allowing for a more static background.
Extensive experiments demonstrate that the proposed method can achieve
promising results in video synthesis tasks encompassing various poses, like
chibi. Project Page: https://eccv2024tcan.github.io/Summary
AI-Generated Summary