Sci-Fi: Restrição Simétrica para Interpolação de Quadros
Sci-Fi: Symmetric Constraint for Frame Inbetweening
May 27, 2025
Autores: Liuhan Chen, Xiaodong Cun, Xiaoyu Li, Xianyi He, Shenghai Yuan, Jie Chen, Ying Shan, Li Yuan
cs.AI
Resumo
O frame inbetweening tem como objetivo sintetizar sequências de vídeo intermediárias condicionadas aos quadros inicial e final fornecidos. Os métodos atuais de ponta estendem principalmente modelos de difusão de imagem para vídeo (I2V-DMs) pré-treinados em grande escala, incorporando restrições do quadro final por meio de ajuste fino direto ou omitindo o treinamento. Identificamos uma limitação crítica em seu design: a injeção da restrição do quadro final geralmente utiliza o mesmo mecanismo que originalmente impôs a restrição do quadro inicial (imagem única). No entanto, como os I2V-DMs originais já são adequadamente treinados para a condição do quadro inicial com antecedência, a introdução ingênua da restrição do quadro final pelo mesmo mecanismo com muito menos (ou mesmo nenhum) treinamento especializado provavelmente não pode fazer com que o quadro final tenha um impacto suficientemente forte no conteúdo intermediário, como o quadro inicial. Essa assimetria na força de controle dos dois quadros sobre o conteúdo intermediário provavelmente leva a movimentos inconsistentes ou colapso de aparência nos quadros gerados. Para alcançar eficientemente restrições simétricas dos quadros inicial e final, propomos uma nova estrutura, denominada Sci-Fi, que aplica uma injeção mais forte para a restrição de uma escala de treinamento menor. Especificamente, ela trata a restrição do quadro inicial como antes, enquanto introduz a restrição do quadro final por meio de um mecanismo aprimorado. O novo mecanismo é baseado em um módulo leve bem projetado, chamado EF-Net, que codifica apenas o quadro final e o expande em recursos temporais adaptativos por quadro, injetados no I2V-DM. Isso torna a restrição do quadro final tão forte quanto a do quadro inicial, permitindo que nosso Sci-Fi produza transições mais harmoniosas em vários cenários. Experimentos extensivos comprovam a superioridade do nosso Sci-Fi em comparação com outras abordagens de referência.
English
Frame inbetweening aims to synthesize intermediate video sequences
conditioned on the given start and end frames. Current state-of-the-art methods
mainly extend large-scale pre-trained Image-to-Video Diffusion models (I2V-DMs)
by incorporating end-frame constraints via directly fine-tuning or omitting
training. We identify a critical limitation in their design: Their injections
of the end-frame constraint usually utilize the same mechanism that originally
imposed the start-frame (single image) constraint. However, since the original
I2V-DMs are adequately trained for the start-frame condition in advance,
naively introducing the end-frame constraint by the same mechanism with much
less (even zero) specialized training probably can't make the end frame have a
strong enough impact on the intermediate content like the start frame. This
asymmetric control strength of the two frames over the intermediate content
likely leads to inconsistent motion or appearance collapse in generated frames.
To efficiently achieve symmetric constraints of start and end frames, we
propose a novel framework, termed Sci-Fi, which applies a stronger injection
for the constraint of a smaller training scale. Specifically, it deals with the
start-frame constraint as before, while introducing the end-frame constraint by
an improved mechanism. The new mechanism is based on a well-designed
lightweight module, named EF-Net, which encodes only the end frame and expands
it into temporally adaptive frame-wise features injected into the I2V-DM. This
makes the end-frame constraint as strong as the start-frame constraint,
enabling our Sci-Fi to produce more harmonious transitions in various
scenarios. Extensive experiments prove the superiority of our Sci-Fi compared
with other baselines.