Sci-Fi: Restrição Simétrica para Interpolação de Quadros

Resumo

O frame inbetweening tem como objetivo sintetizar sequências de vídeo intermediárias condicionadas aos quadros inicial e final fornecidos. Os métodos atuais de ponta estendem principalmente modelos de difusão de imagem para vídeo (I2V-DMs) pré-treinados em grande escala, incorporando restrições do quadro final por meio de ajuste fino direto ou omitindo o treinamento. Identificamos uma limitação crítica em seu design: a injeção da restrição do quadro final geralmente utiliza o mesmo mecanismo que originalmente impôs a restrição do quadro inicial (imagem única). No entanto, como os I2V-DMs originais já são adequadamente treinados para a condição do quadro inicial com antecedência, a introdução ingênua da restrição do quadro final pelo mesmo mecanismo com muito menos (ou mesmo nenhum) treinamento especializado provavelmente não pode fazer com que o quadro final tenha um impacto suficientemente forte no conteúdo intermediário, como o quadro inicial. Essa assimetria na força de controle dos dois quadros sobre o conteúdo intermediário provavelmente leva a movimentos inconsistentes ou colapso de aparência nos quadros gerados. Para alcançar eficientemente restrições simétricas dos quadros inicial e final, propomos uma nova estrutura, denominada Sci-Fi, que aplica uma injeção mais forte para a restrição de uma escala de treinamento menor. Especificamente, ela trata a restrição do quadro inicial como antes, enquanto introduz a restrição do quadro final por meio de um mecanismo aprimorado. O novo mecanismo é baseado em um módulo leve bem projetado, chamado EF-Net, que codifica apenas o quadro final e o expande em recursos temporais adaptativos por quadro, injetados no I2V-DM. Isso torna a restrição do quadro final tão forte quanto a do quadro inicial, permitindo que nosso Sci-Fi produza transições mais harmoniosas em vários cenários. Experimentos extensivos comprovam a superioridade do nosso Sci-Fi em comparação com outras abordagens de referência.

English

Frame inbetweening aims to synthesize intermediate video sequences conditioned on the given start and end frames. Current state-of-the-art methods mainly extend large-scale pre-trained Image-to-Video Diffusion models (I2V-DMs) by incorporating end-frame constraints via directly fine-tuning or omitting training. We identify a critical limitation in their design: Their injections of the end-frame constraint usually utilize the same mechanism that originally imposed the start-frame (single image) constraint. However, since the original I2V-DMs are adequately trained for the start-frame condition in advance, naively introducing the end-frame constraint by the same mechanism with much less (even zero) specialized training probably can't make the end frame have a strong enough impact on the intermediate content like the start frame. This asymmetric control strength of the two frames over the intermediate content likely leads to inconsistent motion or appearance collapse in generated frames. To efficiently achieve symmetric constraints of start and end frames, we propose a novel framework, termed Sci-Fi, which applies a stronger injection for the constraint of a smaller training scale. Specifically, it deals with the start-frame constraint as before, while introducing the end-frame constraint by an improved mechanism. The new mechanism is based on a well-designed lightweight module, named EF-Net, which encodes only the end frame and expands it into temporally adaptive frame-wise features injected into the I2V-DM. This makes the end-frame constraint as strong as the start-frame constraint, enabling our Sci-Fi to produce more harmonious transitions in various scenarios. Extensive experiments prove the superiority of our Sci-Fi compared with other baselines.

Sci-Fi: Restrição Simétrica para Interpolação de Quadros

Sci-Fi: Symmetric Constraint for Frame Inbetweening

Resumo

Support