VideoGrain: Modulazione dell'attenzione spazio-temporale per l'editing video multi-granulare
VideoGrain: Modulating Space-Time Attention for Multi-grained Video Editing
February 24, 2025
Autori: Xiangpeng Yang, Linchao Zhu, Hehe Fan, Yi Yang
cs.AI
Abstract
I recenti progressi nei modelli di diffusione hanno notevolmente migliorato le capacità di generazione e modifica di video. Tuttavia, la modifica multi-granulare dei video, che comprende modifiche a livello di classe, istanza e parte, rimane una sfida formidabile. Le principali difficoltà nella modifica multi-granulare includono il disallineamento semantico del controllo testo-regione e l'accoppiamento delle caratteristiche all'interno del modello di diffusione. Per affrontare queste difficoltà, presentiamo VideoGrain, un approccio zero-shot che modula i meccanismi di attenzione spazio-temporale (cross- e self-) per ottenere un controllo fine-granulare sul contenuto video. Miglioriamo il controllo testo-regione amplificando l'attenzione di ciascun prompt locale alla sua corrispondente regione spazialmente disaccoppiata, riducendo al minimo le interazioni con aree irrilevanti nell'attenzione incrociata. Inoltre, miglioriamo la separazione delle caratteristiche aumentando la consapevolezza intra-regione e riducendo l'interferenza inter-regione nell'auto-attenzione. Esperimenti estesi dimostrano che il nostro metodo raggiunge prestazioni all'avanguardia in scenari reali. Il nostro codice, dati e demo sono disponibili su https://knightyxp.github.io/VideoGrain_project_page/.
English
Recent advancements in diffusion models have significantly improved video
generation and editing capabilities. However, multi-grained video editing,
which encompasses class-level, instance-level, and part-level modifications,
remains a formidable challenge. The major difficulties in multi-grained editing
include semantic misalignment of text-to-region control and feature coupling
within the diffusion model. To address these difficulties, we present
VideoGrain, a zero-shot approach that modulates space-time (cross- and self-)
attention mechanisms to achieve fine-grained control over video content. We
enhance text-to-region control by amplifying each local prompt's attention to
its corresponding spatial-disentangled region while minimizing interactions
with irrelevant areas in cross-attention. Additionally, we improve feature
separation by increasing intra-region awareness and reducing inter-region
interference in self-attention. Extensive experiments demonstrate our method
achieves state-of-the-art performance in real-world scenarios. Our code, data,
and demos are available at https://knightyxp.github.io/VideoGrain_project_page/Summary
AI-Generated Summary