UniReal : Génération et Édition d'Images Universelles via l'Apprentissage des Dynamiques du Monde Réel
UniReal: Universal Image Generation and Editing via Learning Real-world Dynamics
December 10, 2024
Auteurs: Xi Chen, Zhifei Zhang, He Zhang, Yuqian Zhou, Soo Ye Kim, Qing Liu, Yijun Li, Jianming Zhang, Nanxuan Zhao, Yilin Wang, Hui Ding, Zhe Lin, Hengshuang Zhao
cs.AI
Résumé
Nous présentons UniReal, un cadre unifié conçu pour aborder diverses tâches de génération et d'édition d'images. Les solutions existantes varient souvent selon les tâches, mais partagent des principes fondamentaux : préserver la cohérence entre les entrées et les sorties tout en capturant les variations visuelles. Inspirés par les modèles récents de génération de vidéos qui équilibrent efficacement la cohérence et la variation entre les images, nous proposons une approche unificatrice qui traite les tâches au niveau de l'image comme une génération de vidéo discontinue. Plus précisément, nous considérons des nombres variables d'images d'entrée et de sortie comme des images clés, permettant un support transparent pour des tâches telles que la génération d'images, l'édition, la personnalisation, la composition, etc. Bien que conçu pour les tâches au niveau de l'image, nous exploitons les vidéos comme une source évolutive de supervision universelle. UniReal apprend la dynamique du monde à partir de vidéos à grande échelle, démontrant une capacité avancée à gérer les ombres, les reflets, les variations de pose et l'interaction des objets, tout en présentant également une capacité émergente pour de nouvelles applications.
English
We introduce UniReal, a unified framework designed to address various image
generation and editing tasks. Existing solutions often vary by tasks, yet share
fundamental principles: preserving consistency between inputs and outputs while
capturing visual variations. Inspired by recent video generation models that
effectively balance consistency and variation across frames, we propose a
unifying approach that treats image-level tasks as discontinuous video
generation. Specifically, we treat varying numbers of input and output images
as frames, enabling seamless support for tasks such as image generation,
editing, customization, composition, etc. Although designed for image-level
tasks, we leverage videos as a scalable source for universal supervision.
UniReal learns world dynamics from large-scale videos, demonstrating advanced
capability in handling shadows, reflections, pose variation, and object
interaction, while also exhibiting emergent capability for novel applications.Summary
AI-Generated Summary