VideoGrain: Modulazione dell'attenzione spazio-temporale per l'editing video multi-granulareVideoGrain: Modulating Space-Time Attention for Multi-grained Video
Editing
I recenti progressi nei modelli di diffusione hanno notevolmente migliorato le capacità di generazione e modifica di video. Tuttavia, la modifica multi-granulare dei video, che comprende modifiche a livello di classe, istanza e parte, rimane una sfida formidabile. Le principali difficoltà nella modifica multi-granulare includono il disallineamento semantico del controllo testo-regione e l'accoppiamento delle caratteristiche all'interno del modello di diffusione. Per affrontare queste difficoltà, presentiamo VideoGrain, un approccio zero-shot che modula i meccanismi di attenzione spazio-temporale (cross- e self-) per ottenere un controllo fine-granulare sul contenuto video. Miglioriamo il controllo testo-regione amplificando l'attenzione di ciascun prompt locale alla sua corrispondente regione spazialmente disaccoppiata, riducendo al minimo le interazioni con aree irrilevanti nell'attenzione incrociata. Inoltre, miglioriamo la separazione delle caratteristiche aumentando la consapevolezza intra-regione e riducendo l'interferenza inter-regione nell'auto-attenzione. Esperimenti estesi dimostrano che il nostro metodo raggiunge prestazioni all'avanguardia in scenari reali. Il nostro codice, dati e demo sono disponibili su https://knightyxp.github.io/VideoGrain_project_page/.