OmniCreator: Самонадзорное объединенное создание с универсальным редактированием
OmniCreator: Self-Supervised Unified Generation with Universal Editing
December 3, 2024
Авторы: Haodong Chen, Lan Wang, Harry Yang, Ser-Nam Lim
cs.AI
Аннотация
Мы представляем OmniCreator, новую платформу, способную выполнять генерацию (изображения + видео) и редактирование по текстовым подсказкам в одном месте. OmniCreator приобретает генеративные и универсальные возможности редактирования самостоятельно, используя оригинальные пары текст-видео в качестве условий, а также видео в качестве цели для обучения семантическому соответствию между видео и текстом. Во время вывода, когда представлены текстовая подсказка и видео, OmniCreator способен генерировать цель, верную обоим, достигая универсального эффекта редактирования, не ограниченного, в отличие от существующих работ по редактированию, которые в основном сосредоточены на определенных типах редактирования или зависят от дополнительных контролов (например, структурных условий, признаков внимания или инверсии DDIM). С другой стороны, когда представлена только текстовая подсказка, OmniCreator становится генеративным, производя видео высокого качества в результате изученного семантического соответствия. Важно отметить, что эти же возможности распространяются на изображения как есть, делая OmniCreator поистине универсальной платформой. Кроме того, из-за отсутствия существующих бенчмарков для генеративного видеоредактирования, мы представляем набор данных OmniBench-99, разработанный для всесторонней оценки производительности моделей генеративного видеоредактирования. Обширные эксперименты показывают, что OmniCreator проявляет существенное превосходство над всеми другими моделями.
English
We introduce OmniCreator, a novel framework that can conduct text-prompted
unified (image+video) generation as well as editing all in one place.
OmniCreator acquires generative and universal editing capabilities in a
self-supervised manner, taking original text-video pairs as conditions while
utilizing the same video as a denoising target to learn the semantic
correspondence between video and text. During inference, when presented with a
text prompt and a video, OmniCreator is capable of generating a target that is
faithful to both, achieving a universal editing effect that is unconstrained as
opposed to existing editing work that primarily focuses on certain editing
types or relies on additional controls (e.g., structural conditions, attention
features, or DDIM inversion). On the other hand, when presented with a text
prompt only, OmniCreator becomes generative, producing high-quality video as a
result of the semantic correspondence learned. Importantly, we found that the
same capabilities extend to images as is, making OmniCreator a truly unified
framework. Further, due to the lack of existing generative video editing
benchmarks, we introduce the OmniBench-99 dataset, designed to evaluate the
performance of generative video editing models comprehensively. Extensive
experiments demonstrate that OmniCreator exhibits substantial superiority over
all other models.Summary
AI-Generated Summary