VideoAnydoor : Insertion d'objet vidéo haute fidélité avec un contrôle précis du mouvement

papers.abstract

Malgré les avancées significatives dans la génération de vidéos, insérer un objet donné dans des vidéos reste une tâche difficile. La difficulté réside dans la préservation des détails d'apparence de l'objet de référence et dans la modélisation précise des mouvements cohérents en même temps. Dans cet article, nous proposons VideoAnydoor, un cadre d'insertion d'objet vidéo sans apprentissage préalable avec une préservation des détails haute fidélité et un contrôle précis du mouvement. À partir d'un modèle texte-vidéo, nous utilisons un extracteur d'identifiant pour injecter l'identité globale et exploitons une séquence de boîtes pour contrôler le mouvement global. Pour préserver l'apparence détaillée et en même temps soutenir un contrôle de mouvement fin, nous concevons un déformateur de pixels. Il prend l'image de référence avec des points clés arbitraires et les trajectoires de points clés correspondantes en entrée. Il déforme les détails des pixels selon les trajectoires et fusionne les caractéristiques déformées avec le réseau U-Net de diffusion, améliorant ainsi la préservation des détails et soutenant les utilisateurs dans la manipulation des trajectoires de mouvement. De plus, nous proposons une stratégie d'entraînement impliquant à la fois des vidéos et des images statiques avec une perte de reconstruction à rééquilibrage pour améliorer la qualité de l'insertion. VideoAnydoor démontre une supériorité significative par rapport aux méthodes existantes et prend en charge naturellement diverses applications en aval (par exemple, génération de tête parlante, essayage virtuel de vidéos, édition multi-régions) sans ajustement fin spécifique à la tâche.

English

Despite significant advancements in video generation, inserting a given object into videos remains a challenging task. The difficulty lies in preserving the appearance details of the reference object and accurately modeling coherent motions at the same time. In this paper, we propose VideoAnydoor, a zero-shot video object insertion framework with high-fidelity detail preservation and precise motion control. Starting from a text-to-video model, we utilize an ID extractor to inject the global identity and leverage a box sequence to control the overall motion. To preserve the detailed appearance and meanwhile support fine-grained motion control, we design a pixel warper. It takes the reference image with arbitrary key-points and the corresponding key-point trajectories as inputs. It warps the pixel details according to the trajectories and fuses the warped features with the diffusion U-Net, thus improving detail preservation and supporting users in manipulating the motion trajectories. In addition, we propose a training strategy involving both videos and static images with a reweight reconstruction loss to enhance insertion quality. VideoAnydoor demonstrates significant superiority over existing methods and naturally supports various downstream applications (e.g., talking head generation, video virtual try-on, multi-region editing) without task-specific fine-tuning.

VideoAnydoor : Insertion d'objet vidéo haute fidélité avec un contrôle précis du mouvement

VideoAnydoor: High-fidelity Video Object Insertion with Precise Motion Control

papers.abstract

Support