ChatPaper.aiChatPaper

Objektzentrierte Diffusion für effiziente Videobearbeitung

Object-Centric Diffusion for Efficient Video Editing

January 11, 2024
Autoren: Kumara Kahatapitiya, Adil Karjauv, Davide Abati, Fatih Porikli, Yuki M. Asano, Amirhossein Habibian
cs.AI

Zusammenfassung

Diffusionsbasierte Videobearbeitung hat beeindruckende Qualität erreicht und kann entweder den globalen Stil, die lokale Struktur oder die Attribute von gegebenen Videoeingaben entsprechend textueller Bearbeitungsanweisungen transformieren. Solche Lösungen verursachen jedoch typischerweise hohe Speicher- und Rechenkosten, um zeitlich kohärente Frames zu erzeugen, sei es in Form von Diffusionsinversion und/oder Cross-Frame-Attention. In diesem Papier analysieren wir derartige Ineffizienzen und schlagen einfache, aber effektive Modifikationen vor, die signifikante Beschleunigungen bei gleichbleibender Qualität ermöglichen. Darüber hinaus führen wir Object-Centric Diffusion, kurz OCD, ein, um die Latenz weiter zu reduzieren, indem Berechnungen stärker auf bearbeitete Vordergrundregionen konzentriert werden, die für die wahrgenommene Qualität vermutlich wichtiger sind. Dies erreichen wir durch zwei neuartige Vorschläge: i) Object-Centric Sampling, das die Diffusionsschritte für relevante Regionen oder den Hintergrund entkoppelt und den Großteil der Modellkapazität auf erstere verteilt, und ii) Object-Centric 3D Token Merging, das die Kosten der Cross-Frame-Attention reduziert, indem redundante Tokens in unwichtigen Hintergrundregionen fusioniert werden. Beide Techniken sind ohne erneutes Training direkt auf ein gegebenes Videobearbeitungsmodell anwendbar und können dessen Speicher- und Rechenkosten drastisch verringern. Wir evaluieren unsere Vorschläge anhand von Inversions-basierten und Steuersignal-basierten Bearbeitungspipelines und zeigen eine Latenzreduktion von bis zu 10x bei vergleichbarer Synthesequalität.
English
Diffusion-based video editing have reached impressive quality and can transform either the global style, local structure, and attributes of given video inputs, following textual edit prompts. However, such solutions typically incur heavy memory and computational costs to generate temporally-coherent frames, either in the form of diffusion inversion and/or cross-frame attention. In this paper, we conduct an analysis of such inefficiencies, and suggest simple yet effective modifications that allow significant speed-ups whilst maintaining quality. Moreover, we introduce Object-Centric Diffusion, coined as OCD, to further reduce latency by allocating computations more towards foreground edited regions that are arguably more important for perceptual quality. We achieve this by two novel proposals: i) Object-Centric Sampling, decoupling the diffusion steps spent on salient regions or background, allocating most of the model capacity to the former, and ii) Object-Centric 3D Token Merging, which reduces cost of cross-frame attention by fusing redundant tokens in unimportant background regions. Both techniques are readily applicable to a given video editing model without retraining, and can drastically reduce its memory and computational cost. We evaluate our proposals on inversion-based and control-signal-based editing pipelines, and show a latency reduction up to 10x for a comparable synthesis quality.
PDF110December 15, 2024