ChatPaper.aiChatPaper

OmniCreator: Generación Unificada Auto-supervisada con Edición Universal

OmniCreator: Self-Supervised Unified Generation with Universal Editing

December 3, 2024
Autores: Haodong Chen, Lan Wang, Harry Yang, Ser-Nam Lim
cs.AI

Resumen

Presentamos OmniCreator, un marco novedoso que puede realizar generación unificada (imagen+video) y edición de texto en un mismo lugar. OmniCreator adquiere capacidades generativas y de edición universales de manera auto-supervisada, tomando pares originales de texto y video como condiciones al mismo tiempo que utiliza el mismo video como objetivo de desruido para aprender la correspondencia semántica entre video y texto. Durante la inferencia, al recibir un texto de entrada y un video, OmniCreator es capaz de generar un objetivo fiel a ambos, logrando un efecto de edición universal que no está limitado en comparación con trabajos de edición existentes que se centran principalmente en ciertos tipos de edición o dependen de controles adicionales (por ejemplo, condiciones estructurales, características de atención o inversión DDIM). Por otro lado, al recibir solo un texto de entrada, OmniCreator se vuelve generativo, produciendo videos de alta calidad como resultado de la correspondencia semántica aprendida. Es importante destacar que estas mismas capacidades se extienden a imágenes tal cual, convirtiendo a OmniCreator en un marco verdaderamente unificado. Además, debido a la falta de benchmarks existentes para la edición generativa de videos, presentamos el conjunto de datos OmniBench-99, diseñado para evaluar de manera exhaustiva el rendimiento de los modelos de edición generativa de video. Experimentos extensos demuestran que OmniCreator exhibe una superioridad sustancial sobre todos los demás modelos.
English
We introduce OmniCreator, a novel framework that can conduct text-prompted unified (image+video) generation as well as editing all in one place. OmniCreator acquires generative and universal editing capabilities in a self-supervised manner, taking original text-video pairs as conditions while utilizing the same video as a denoising target to learn the semantic correspondence between video and text. During inference, when presented with a text prompt and a video, OmniCreator is capable of generating a target that is faithful to both, achieving a universal editing effect that is unconstrained as opposed to existing editing work that primarily focuses on certain editing types or relies on additional controls (e.g., structural conditions, attention features, or DDIM inversion). On the other hand, when presented with a text prompt only, OmniCreator becomes generative, producing high-quality video as a result of the semantic correspondence learned. Importantly, we found that the same capabilities extend to images as is, making OmniCreator a truly unified framework. Further, due to the lack of existing generative video editing benchmarks, we introduce the OmniBench-99 dataset, designed to evaluate the performance of generative video editing models comprehensively. Extensive experiments demonstrate that OmniCreator exhibits substantial superiority over all other models.

Summary

AI-Generated Summary

PDF143December 4, 2024