VideoJAM: Rappresentazioni Coniugate di Aspetto e Movimento per una Generazione Migliorata del Movimento nei Modelli VideoVideoJAM: Joint Appearance-Motion Representations for Enhanced Motion
Generation in Video Models
Nonostante i notevoli progressi recenti, i modelli generativi di video faticano ancora a catturare il movimento, la dinamica e la fisica del mondo reale. Dimostriamo che questa limitazione deriva dall'obiettivo convenzionale di ricostruzione dei pixel, che porta i modelli a privilegiare la fedeltà all'aspetto a discapito della coerenza del movimento. Per affrontare questo problema, introduciamo VideoJAM, un nuovo framework che infonde una priorità efficace al movimento nei generatori di video, incoraggiando il modello a imparare una rappresentazione congiunta di aspetto e movimento. VideoJAM è composto da due unità complementari. Durante l'addestramento, estendiamo l'obiettivo per prevedere sia i pixel generati che il loro movimento corrispondente da una singola rappresentazione appresa. Durante l'inferenza, introduciamo Inner-Guidance, un meccanismo che guida la generazione verso un movimento coerente sfruttando la previsione dinamica in evoluzione del modello come segnale guida dinamico. In particolare, il nostro framework può essere applicato a qualsiasi modello video con adattamenti minimi, senza richiedere modifiche ai dati di addestramento o alla scalabilità del modello. VideoJAM raggiunge prestazioni all'avanguardia nella coerenza del movimento, superando modelli proprietari altamente competitivi migliorando anche la qualità visiva percepita delle generazioni. Questi risultati sottolineano che l'aspetto e il movimento possono essere complementari e, quando integrati in modo efficace, migliorano sia la qualità visiva che la coerenza della generazione di video. Sito web del progetto: https://hila-chefer.github.io/videojam-paper.github.io/