Sci-Fi: Симметричное ограничение для интерполяции кадров
Sci-Fi: Symmetric Constraint for Frame Inbetweening
May 27, 2025
Авторы: Liuhan Chen, Xiaodong Cun, Xiaoyu Li, Xianyi He, Shenghai Yuan, Jie Chen, Ying Shan, Li Yuan
cs.AI
Аннотация
Задача интерполяции кадров заключается в синтезе промежуточных видеопоследовательностей, обусловленных заданными начальным и конечным кадрами. Современные передовые методы в основном расширяют крупномасштабные предобученные модели диффузии "Изображение-в-Видео" (I2V-DMs), добавляя ограничения на конечный кадр через прямое тонкое настраивание или исключая обучение. Мы выявили ключевое ограничение в их конструкции: внедрение ограничения на конечный кадр обычно использует тот же механизм, который изначально накладывал ограничение на начальный кадр (одиночное изображение). Однако, поскольку оригинальные I2V-DMs уже достаточно обучены для условия начального кадра, простое добавление ограничения на конечный кадр тем же механизмом с гораздо меньшим (или даже нулевым) специализированным обучением, вероятно, не позволяет конечному кадру оказывать столь же сильное влияние на промежуточное содержание, как начальному кадру. Эта асимметричная сила контроля двух кадров над промежуточным содержанием, вероятно, приводит к несогласованному движению или коллапсу внешнего вида в сгенерированных кадрах. Для эффективного достижения симметричных ограничений начального и конечного кадров мы предлагаем новую структуру, названную Sci-Fi, которая применяет более сильное внедрение для ограничения с меньшим масштабом обучения. В частности, она обрабатывает ограничение на начальный кадр как прежде, но вводит ограничение на конечный кадр через улучшенный механизм. Новый механизм основан на хорошо спроектированном легковесном модуле, названном EF-Net, который кодирует только конечный кадр и расширяет его во временно адаптивные пофреймовые признаки, внедряемые в I2V-DM. Это делает ограничение на конечный кадр столь же сильным, как и на начальный кадр, позволяя нашему Sci-Fi создавать более гармоничные переходы в различных сценариях. Многочисленные эксперименты подтверждают превосходство нашего Sci-Fi по сравнению с другими базовыми методами.
English
Frame inbetweening aims to synthesize intermediate video sequences
conditioned on the given start and end frames. Current state-of-the-art methods
mainly extend large-scale pre-trained Image-to-Video Diffusion models (I2V-DMs)
by incorporating end-frame constraints via directly fine-tuning or omitting
training. We identify a critical limitation in their design: Their injections
of the end-frame constraint usually utilize the same mechanism that originally
imposed the start-frame (single image) constraint. However, since the original
I2V-DMs are adequately trained for the start-frame condition in advance,
naively introducing the end-frame constraint by the same mechanism with much
less (even zero) specialized training probably can't make the end frame have a
strong enough impact on the intermediate content like the start frame. This
asymmetric control strength of the two frames over the intermediate content
likely leads to inconsistent motion or appearance collapse in generated frames.
To efficiently achieve symmetric constraints of start and end frames, we
propose a novel framework, termed Sci-Fi, which applies a stronger injection
for the constraint of a smaller training scale. Specifically, it deals with the
start-frame constraint as before, while introducing the end-frame constraint by
an improved mechanism. The new mechanism is based on a well-designed
lightweight module, named EF-Net, which encodes only the end frame and expands
it into temporally adaptive frame-wise features injected into the I2V-DM. This
makes the end-frame constraint as strong as the start-frame constraint,
enabling our Sci-Fi to produce more harmonious transitions in various
scenarios. Extensive experiments prove the superiority of our Sci-Fi compared
with other baselines.Summary
AI-Generated Summary