ChatPaper.aiChatPaper

UniReal: Universele beeldgeneratie en -bewerking via het leren van real-world dynamica.

UniReal: Universal Image Generation and Editing via Learning Real-world Dynamics

December 10, 2024
Auteurs: Xi Chen, Zhifei Zhang, He Zhang, Yuqian Zhou, Soo Ye Kim, Qing Liu, Yijun Li, Jianming Zhang, Nanxuan Zhao, Yilin Wang, Hui Ding, Zhe Lin, Hengshuang Zhao
cs.AI

Samenvatting

We introduceren UniReal, een verenigd raamwerk dat is ontworpen om verschillende taken voor beeldgeneratie en -bewerking aan te pakken. Bestaande oplossingen verschillen vaak per taak, maar delen fundamentele principes: het behouden van consistentie tussen invoer en uitvoer terwijl visuele variaties worden vastgelegd. Geïnspireerd door recente modellen voor videogeneratie die effectief balans vinden tussen consistentie en variatie over frames, stellen we een verenigende aanpak voor die beeldniveau taken behandelt als discontinu video generatie. Specifiek behandelen we variabele aantallen invoer- en uitvoerbeelden als frames, waardoor naadloze ondersteuning mogelijk is voor taken zoals beeldgeneratie, bewerking, aanpassing, compositie, enz. Hoewel ontworpen voor beeldniveau taken, maken we gebruik van video's als een schaalbare bron voor universele supervisie. UniReal leert wereld dynamica van grootschalige video's, waarbij geavanceerde mogelijkheden worden gedemonstreerd in het omgaan met schaduwen, reflecties, pose variatie en objectinteractie, terwijl ook opkomende mogelijkheden worden getoond voor nieuwe toepassingen.
English
We introduce UniReal, a unified framework designed to address various image generation and editing tasks. Existing solutions often vary by tasks, yet share fundamental principles: preserving consistency between inputs and outputs while capturing visual variations. Inspired by recent video generation models that effectively balance consistency and variation across frames, we propose a unifying approach that treats image-level tasks as discontinuous video generation. Specifically, we treat varying numbers of input and output images as frames, enabling seamless support for tasks such as image generation, editing, customization, composition, etc. Although designed for image-level tasks, we leverage videos as a scalable source for universal supervision. UniReal learns world dynamics from large-scale videos, demonstrating advanced capability in handling shadows, reflections, pose variation, and object interaction, while also exhibiting emergent capability for novel applications.
PDF304December 11, 2024