ChatPaper.aiChatPaper

UniReal : Génération et Édition d'Images Universelles via l'Apprentissage des Dynamiques du Monde Réel

UniReal: Universal Image Generation and Editing via Learning Real-world Dynamics

December 10, 2024
Auteurs: Xi Chen, Zhifei Zhang, He Zhang, Yuqian Zhou, Soo Ye Kim, Qing Liu, Yijun Li, Jianming Zhang, Nanxuan Zhao, Yilin Wang, Hui Ding, Zhe Lin, Hengshuang Zhao
cs.AI

Résumé

Nous présentons UniReal, un cadre unifié conçu pour aborder diverses tâches de génération et d'édition d'images. Les solutions existantes varient souvent selon les tâches, mais partagent des principes fondamentaux : préserver la cohérence entre les entrées et les sorties tout en capturant les variations visuelles. Inspirés par les modèles récents de génération de vidéos qui équilibrent efficacement la cohérence et la variation entre les images, nous proposons une approche unificatrice qui traite les tâches au niveau de l'image comme une génération de vidéo discontinue. Plus précisément, nous considérons des nombres variables d'images d'entrée et de sortie comme des images clés, permettant un support transparent pour des tâches telles que la génération d'images, l'édition, la personnalisation, la composition, etc. Bien que conçu pour les tâches au niveau de l'image, nous exploitons les vidéos comme une source évolutive de supervision universelle. UniReal apprend la dynamique du monde à partir de vidéos à grande échelle, démontrant une capacité avancée à gérer les ombres, les reflets, les variations de pose et l'interaction des objets, tout en présentant également une capacité émergente pour de nouvelles applications.
English
We introduce UniReal, a unified framework designed to address various image generation and editing tasks. Existing solutions often vary by tasks, yet share fundamental principles: preserving consistency between inputs and outputs while capturing visual variations. Inspired by recent video generation models that effectively balance consistency and variation across frames, we propose a unifying approach that treats image-level tasks as discontinuous video generation. Specifically, we treat varying numbers of input and output images as frames, enabling seamless support for tasks such as image generation, editing, customization, composition, etc. Although designed for image-level tasks, we leverage videos as a scalable source for universal supervision. UniReal learns world dynamics from large-scale videos, demonstrating advanced capability in handling shadows, reflections, pose variation, and object interaction, while also exhibiting emergent capability for novel applications.

Summary

AI-Generated Summary

PDF314December 11, 2024