ChatPaper.aiChatPaper

Исследование промежуточных значений времени и пространства

Explorative Inbetweening of Time and Space

March 21, 2024
Авторы: Haiwen Feng, Zheng Ding, Zhihao Xia, Simon Niklaus, Victoria Abrevaya, Michael J. Black, Xuaner Zhang
cs.AI

Аннотация

Мы представляем ограниченную генерацию как обобщенную задачу для управления генерацией видео с целью синтеза произвольного движения камеры и объекта на основе только заданного начального и конечного кадра. Наша цель - полностью использовать врожденную способность к обобщению модели изображение-видео без дополнительного обучения или донастройки исходной модели. Это достигается благодаря предложенной новой стратегии выборки, которую мы называем "Слияние обратного времени", объединяющей временно прямые и обратные пути денойзинга, условные на начальный и конечный кадр соответственно. Объединенный путь приводит к видео, которое плавно соединяет два кадра, генерируя промежуточное движение верного объекта, новые виды статических сцен и плавное зацикливание видео, когда два граничных кадра идентичны. Мы составляем разнообразный набор данных для оценки изображений и сравниваем с ближайшими существующими методами. Мы обнаружили, что "Слияние обратного времени" превосходит сопоставимые работы во всех подзадачах, проявляя способность генерировать сложные движения и 3D-согласованные виды, управляемые граничными кадрами. См. страницу проекта по адресу https://time-reversal.github.io.
English
We introduce bounded generation as a generalized task to control video generation to synthesize arbitrary camera and subject motion based only on a given start and end frame. Our objective is to fully leverage the inherent generalization capability of an image-to-video model without additional training or fine-tuning of the original model. This is achieved through the proposed new sampling strategy, which we call Time Reversal Fusion, that fuses the temporally forward and backward denoising paths conditioned on the start and end frame, respectively. The fused path results in a video that smoothly connects the two frames, generating inbetweening of faithful subject motion, novel views of static scenes, and seamless video looping when the two bounding frames are identical. We curate a diverse evaluation dataset of image pairs and compare against the closest existing methods. We find that Time Reversal Fusion outperforms related work on all subtasks, exhibiting the ability to generate complex motions and 3D-consistent views guided by bounded frames. See project page at https://time-reversal.github.io.

Summary

AI-Generated Summary

PDF131December 15, 2024