OmniDirector : Clonage général de caméra multi-shot sans données appariées croisées

Résumé

Le clonage du mouvement de caméra à partir de vidéos de référence est une tâche importante en génération vidéo, car les vidéos offrent un contrôle intuitif et précis. Les méthodes existantes utilisent soit directement des représentations paramétriques qui échouent à gérer la génération multi-plans, soit synthétisent des données appariées de manière croisée, souffrant d'une rareté des données qui entraîne de mauvaises performances pour le clonage de mouvements de caméra complexes. Pour résoudre ces problèmes, nous introduisons une représentation générale du mouvement de caméra qui encode les caméras sous forme de vidéos de mouvement en grille. Cette grille de caméra représente visuellement les paramètres de la caméra et permet d'intégrer diverses trajectoires pour la génération vidéo multi-plans. Sur cette base, nous proposons OmniDirector, un cadre unifié entraîné sur des paires grille de caméra-vidéo à l'échelle du million, qui coordonne personnages, actions et caméras pour offrir un contrôle de niveau réalisateur aux transformers de diffusion multimodaux. De plus, nous concevons un nouvel agent d'expansion hiérarchique de prompt qui intègre harmonieusement différents signaux de contrôle en décrivant systématiquement le mouvement de la caméra et le contenu visuel via la compréhension des relations entre signaux. Des expériences approfondies démontrent les performances supérieures et la contrôlabilité exceptionnelle de notre cadre. Page du projet : https://ymlinfeng.github.io/OmniDirector.github.io/

English

Cloning camera motion from reference videos is an important task in video generation, as videos provide intuitive and precise control. Existing methods either directly use parametric representations that fail to handle multi-shot generation or synthesize cross-paired data, which suffer from data scarcity, resulting in poor performance in complicated camera motion cloning. To address these issues, we introduce a general camera motion representation that encodes cameras as grid motion videos. This camera grid represents the camera parameters visually and supports the integration of diverse trajectories for multi-shot video generation. Building upon this, we propose OmniDirector, a unified framework trained on a million-scale camera grid-video pairs that coordinates characters, actions, and cameras to provide director-level control for multimodal diffusion transformers. Furthermore, we design a novel hierarchical prompt expansion agent that harmoniously integrates different control signals by systematically describing camera motion and visual content through understanding signal relationships. Extensive experiments demonstrate the superior performance and outstanding controllability of our framework. Project page: https://ymlinfeng.github.io/OmniDirector.github.io/