Come Ballano gli Animali (Quando Non Stai Guardando)
How Animals Dance (When You're Not Looking)
May 29, 2025
Autori: Xiaojuan Wang, Aleksander Holynski, Brian Curless, Ira Kemelmacher, Steve Seitz
cs.AI
Abstract
Presentiamo un framework basato su keyframe per generare video di danza animale sincronizzati con la musica e consapevoli della coreografia. Partendo da pochi keyframe che rappresentano pose distinte degli animali – generati tramite prompt da testo a immagine o GPT-4o – formuliamo la sintesi della danza come un problema di ottimizzazione su grafo: trovare la struttura ottimale dei keyframe che soddisfa uno schema coreografico specifico di battute, che può essere stimato automaticamente da un video di danza di riferimento. Introduciamo inoltre un approccio per la generazione di immagini di pose speculari, essenziale per catturare la simmetria nella danza. I fotogrammi intermedi vengono sintetizzati utilizzando un modello di diffusione video. Con appena sei keyframe in input, il nostro metodo è in grado di produrre video di danza della durata fino a 30 secondi, applicabile a una vasta gamma di animali e brani musicali.
English
We present a keyframe-based framework for generating music-synchronized,
choreography aware animal dance videos. Starting from a few keyframes
representing distinct animal poses -- generated via text-to-image prompting or
GPT-4o -- we formulate dance synthesis as a graph optimization problem: find
the optimal keyframe structure that satisfies a specified choreography pattern
of beats, which can be automatically estimated from a reference dance video. We
also introduce an approach for mirrored pose image generation, essential for
capturing symmetry in dance. In-between frames are synthesized using an video
diffusion model. With as few as six input keyframes, our method can produce up
to 30 second dance videos across a wide range of animals and music tracks.