Sci-Fi : Contrainte Symétrique pour l'Interpolation d'Images Intermédiaires
Sci-Fi: Symmetric Constraint for Frame Inbetweening
May 27, 2025
Auteurs: Liuhan Chen, Xiaodong Cun, Xiaoyu Li, Xianyi He, Shenghai Yuan, Jie Chen, Ying Shan, Li Yuan
cs.AI
Résumé
L'interpolation d'images intermédiaires vise à synthétiser des séquences vidéo intermédiaires conditionnées par les images de début et de fin données. Les méthodes actuelles les plus avancées étendent principalement des modèles de diffusion Image-à-Vidéo (I2V-DMs) pré-entraînés à grande échelle en incorporant des contraintes d'image de fin via un ajustement fin direct ou en omettant l'entraînement. Nous identifions une limitation critique dans leur conception : leurs injections de la contrainte d'image de fin utilisent généralement le même mécanisme qui imposait initialement la contrainte d'image de début (image unique). Cependant, puisque les I2V-DMs originaux sont déjà suffisamment entraînés pour la condition d'image de début, introduire naïvement la contrainte d'image de fin par le même mécanisme avec beaucoup moins (voire aucun) d'entraînement spécialisé ne peut probablement pas donner à l'image de fin un impact suffisamment fort sur le contenu intermédiaire, contrairement à l'image de début. Cette asymétrie dans la force de contrôle des deux images sur le contenu intermédiaire conduit probablement à des mouvements incohérents ou à un effondrement de l'apparence dans les images générées. Pour atteindre efficacement des contraintes symétriques des images de début et de fin, nous proposons un nouveau cadre, appelé Sci-Fi, qui applique une injection plus forte pour la contrainte d'une échelle d'entraînement plus petite. Concrètement, il traite la contrainte d'image de début comme auparavant, tout en introduisant la contrainte d'image de fin par un mécanisme amélioré. Le nouveau mécanisme est basé sur un module léger bien conçu, nommé EF-Net, qui encode uniquement l'image de fin et l'étend en des caractéristiques temporellement adaptatives par image, injectées dans l'I2V-DM. Cela rend la contrainte d'image de fin aussi forte que celle de l'image de début, permettant à notre Sci-Fi de produire des transitions plus harmonieuses dans divers scénarios. Des expériences approfondies prouvent la supériorité de notre Sci-Fi par rapport à d'autres méthodes de référence.
English
Frame inbetweening aims to synthesize intermediate video sequences
conditioned on the given start and end frames. Current state-of-the-art methods
mainly extend large-scale pre-trained Image-to-Video Diffusion models (I2V-DMs)
by incorporating end-frame constraints via directly fine-tuning or omitting
training. We identify a critical limitation in their design: Their injections
of the end-frame constraint usually utilize the same mechanism that originally
imposed the start-frame (single image) constraint. However, since the original
I2V-DMs are adequately trained for the start-frame condition in advance,
naively introducing the end-frame constraint by the same mechanism with much
less (even zero) specialized training probably can't make the end frame have a
strong enough impact on the intermediate content like the start frame. This
asymmetric control strength of the two frames over the intermediate content
likely leads to inconsistent motion or appearance collapse in generated frames.
To efficiently achieve symmetric constraints of start and end frames, we
propose a novel framework, termed Sci-Fi, which applies a stronger injection
for the constraint of a smaller training scale. Specifically, it deals with the
start-frame constraint as before, while introducing the end-frame constraint by
an improved mechanism. The new mechanism is based on a well-designed
lightweight module, named EF-Net, which encodes only the end frame and expands
it into temporally adaptive frame-wise features injected into the I2V-DM. This
makes the end-frame constraint as strong as the start-frame constraint,
enabling our Sci-Fi to produce more harmonious transitions in various
scenarios. Extensive experiments prove the superiority of our Sci-Fi compared
with other baselines.Summary
AI-Generated Summary