UniReal: Universele beeldgeneratie en -bewerking via het leren van real-world dynamica.
UniReal: Universal Image Generation and Editing via Learning Real-world Dynamics
December 10, 2024
Auteurs: Xi Chen, Zhifei Zhang, He Zhang, Yuqian Zhou, Soo Ye Kim, Qing Liu, Yijun Li, Jianming Zhang, Nanxuan Zhao, Yilin Wang, Hui Ding, Zhe Lin, Hengshuang Zhao
cs.AI
Samenvatting
We introduceren UniReal, een verenigd raamwerk dat is ontworpen om verschillende taken voor beeldgeneratie en -bewerking aan te pakken. Bestaande oplossingen verschillen vaak per taak, maar delen fundamentele principes: het behouden van consistentie tussen invoer en uitvoer terwijl visuele variaties worden vastgelegd. Geïnspireerd door recente modellen voor videogeneratie die effectief balans vinden tussen consistentie en variatie over frames, stellen we een verenigende aanpak voor die beeldniveau taken behandelt als discontinu video generatie. Specifiek behandelen we variabele aantallen invoer- en uitvoerbeelden als frames, waardoor naadloze ondersteuning mogelijk is voor taken zoals beeldgeneratie, bewerking, aanpassing, compositie, enz. Hoewel ontworpen voor beeldniveau taken, maken we gebruik van video's als een schaalbare bron voor universele supervisie. UniReal leert wereld dynamica van grootschalige video's, waarbij geavanceerde mogelijkheden worden gedemonstreerd in het omgaan met schaduwen, reflecties, pose variatie en objectinteractie, terwijl ook opkomende mogelijkheden worden getoond voor nieuwe toepassingen.
English
We introduce UniReal, a unified framework designed to address various image
generation and editing tasks. Existing solutions often vary by tasks, yet share
fundamental principles: preserving consistency between inputs and outputs while
capturing visual variations. Inspired by recent video generation models that
effectively balance consistency and variation across frames, we propose a
unifying approach that treats image-level tasks as discontinuous video
generation. Specifically, we treat varying numbers of input and output images
as frames, enabling seamless support for tasks such as image generation,
editing, customization, composition, etc. Although designed for image-level
tasks, we leverage videos as a scalable source for universal supervision.
UniReal learns world dynamics from large-scale videos, demonstrating advanced
capability in handling shadows, reflections, pose variation, and object
interaction, while also exhibiting emergent capability for novel applications.