ChatPaper.aiChatPaper

TCAN: Animieren von menschlichen Bildern mit zeitlich konsistenter Pose-Anleitung unter Verwendung von Diffusionsmodellen

TCAN: Animating Human Images with Temporally Consistent Pose Guidance using Diffusion Models

July 12, 2024
Autoren: Jeongho Kim, Min-Jung Kim, Junsoo Lee, Jaegul Choo
cs.AI

Zusammenfassung

Pose-getriebene Modelle zur Diffusion der Animation von menschlichen Bildern haben bemerkenswerte Fähigkeiten bei der realistischen Synthese von menschlichen Videos gezeigt. Trotz der vielversprechenden Ergebnisse früherer Ansätze bestehen weiterhin Herausforderungen darin, eine zeitlich konsistente Animation zu erreichen und die Robustheit mit handelsüblichen Pose-Detektoren sicherzustellen. In diesem Artikel präsentieren wir TCAN, eine pose-getriebene Methode zur Animation von menschlichen Bildern, die robust gegen fehlerhafte Posen ist und über die Zeit konsistent bleibt. Im Gegensatz zu früheren Methoden nutzen wir das vortrainierte ControlNet ohne Feinabstimmung, um von seinem umfangreichen vorausgesetzten Wissen aus zahlreichen Pose-Bild-Beschreibungs-Paaren zu profitieren. Um das ControlNet einzufrieren, passen wir LoRA an die UNet-Schichten an, was dem Netzwerk ermöglicht, den latenten Raum zwischen den Pose- und Erscheinungsmerkmalen auszurichten. Darüber hinaus verbessern wir durch die Einführung einer zusätzlichen zeitlichen Schicht in das ControlNet die Robustheit gegen Ausreißer des Pose-Detektors. Durch die Analyse von Aufmerksamkeitskarten über die zeitliche Achse hinweg haben wir auch eine neuartige Temperaturkarte entworfen, die auf Pose-Informationen basiert und einen statischeren Hintergrund ermöglicht. Umfangreiche Experimente zeigen, dass die vorgeschlagene Methode vielversprechende Ergebnisse bei der Videosynthese erzielen kann, die verschiedene Posen umfassen, wie z.B. Chibi. Projektseite: https://eccv2024tcan.github.io/
English
Pose-driven human-image animation diffusion models have shown remarkable capabilities in realistic human video synthesis. Despite the promising results achieved by previous approaches, challenges persist in achieving temporally consistent animation and ensuring robustness with off-the-shelf pose detectors. In this paper, we present TCAN, a pose-driven human image animation method that is robust to erroneous poses and consistent over time. In contrast to previous methods, we utilize the pre-trained ControlNet without fine-tuning to leverage its extensive pre-acquired knowledge from numerous pose-image-caption pairs. To keep the ControlNet frozen, we adapt LoRA to the UNet layers, enabling the network to align the latent space between the pose and appearance features. Additionally, by introducing an additional temporal layer to the ControlNet, we enhance robustness against outliers of the pose detector. Through the analysis of attention maps over the temporal axis, we also designed a novel temperature map leveraging pose information, allowing for a more static background. Extensive experiments demonstrate that the proposed method can achieve promising results in video synthesis tasks encompassing various poses, like chibi. Project Page: https://eccv2024tcan.github.io/

Summary

AI-Generated Summary

PDF102November 28, 2024