VideoAnydoor : Insertion d'objet vidéo haute fidélité avec un contrôle précis du mouvement
VideoAnydoor: High-fidelity Video Object Insertion with Precise Motion Control
January 2, 2025
Auteurs: Yuanpeng Tu, Hao Luo, Xi Chen, Sihui Ji, Xiang Bai, Hengshuang Zhao
cs.AI
Résumé
Malgré les avancées significatives dans la génération de vidéos, insérer un objet donné dans des vidéos reste une tâche difficile. La difficulté réside dans la préservation des détails d'apparence de l'objet de référence et dans la modélisation précise des mouvements cohérents en même temps. Dans cet article, nous proposons VideoAnydoor, un cadre d'insertion d'objet vidéo sans apprentissage préalable avec une préservation des détails haute fidélité et un contrôle précis du mouvement. À partir d'un modèle texte-vidéo, nous utilisons un extracteur d'identifiant pour injecter l'identité globale et exploitons une séquence de boîtes pour contrôler le mouvement global. Pour préserver l'apparence détaillée et en même temps soutenir un contrôle de mouvement fin, nous concevons un déformateur de pixels. Il prend l'image de référence avec des points clés arbitraires et les trajectoires de points clés correspondantes en entrée. Il déforme les détails des pixels selon les trajectoires et fusionne les caractéristiques déformées avec le réseau U-Net de diffusion, améliorant ainsi la préservation des détails et soutenant les utilisateurs dans la manipulation des trajectoires de mouvement. De plus, nous proposons une stratégie d'entraînement impliquant à la fois des vidéos et des images statiques avec une perte de reconstruction à rééquilibrage pour améliorer la qualité de l'insertion. VideoAnydoor démontre une supériorité significative par rapport aux méthodes existantes et prend en charge naturellement diverses applications en aval (par exemple, génération de tête parlante, essayage virtuel de vidéos, édition multi-régions) sans ajustement fin spécifique à la tâche.
English
Despite significant advancements in video generation, inserting a given
object into videos remains a challenging task. The difficulty lies in
preserving the appearance details of the reference object and accurately
modeling coherent motions at the same time. In this paper, we propose
VideoAnydoor, a zero-shot video object insertion framework with high-fidelity
detail preservation and precise motion control. Starting from a text-to-video
model, we utilize an ID extractor to inject the global identity and leverage a
box sequence to control the overall motion. To preserve the detailed appearance
and meanwhile support fine-grained motion control, we design a pixel warper. It
takes the reference image with arbitrary key-points and the corresponding
key-point trajectories as inputs. It warps the pixel details according to the
trajectories and fuses the warped features with the diffusion U-Net, thus
improving detail preservation and supporting users in manipulating the motion
trajectories. In addition, we propose a training strategy involving both videos
and static images with a reweight reconstruction loss to enhance insertion
quality. VideoAnydoor demonstrates significant superiority over existing
methods and naturally supports various downstream applications (e.g., talking
head generation, video virtual try-on, multi-region editing) without
task-specific fine-tuning.Summary
AI-Generated Summary