ChatPaper.aiChatPaper

UniReal: Universelle Bildgenerierung und -bearbeitung durch das Erlernen realer Welt Dynamiken

UniReal: Universal Image Generation and Editing via Learning Real-world Dynamics

December 10, 2024
Autoren: Xi Chen, Zhifei Zhang, He Zhang, Yuqian Zhou, Soo Ye Kim, Qing Liu, Yijun Li, Jianming Zhang, Nanxuan Zhao, Yilin Wang, Hui Ding, Zhe Lin, Hengshuang Zhao
cs.AI

Zusammenfassung

Wir stellen UniReal vor, ein vereinheitlichtes Framework, das entwickelt wurde, um verschiedene Bildgenerierungs- und -bearbeitungsaufgaben anzugehen. Bestehende Lösungen unterscheiden sich oft je nach Aufgabe, teilen jedoch grundlegende Prinzipien: die Konsistenz zwischen Eingabe und Ausgabe zu bewahren, während visuelle Variationen erfasst werden. Inspiriert von aktuellen Videogenerierungsmodellen, die effektiv Konsistenz und Variation über Frames hinweg ausbalancieren, schlagen wir einen vereinheitlichenden Ansatz vor, der Bildaufgaben auf Bildebene als diskontinuierliche Videogenerierung behandelt. Konkret behandeln wir unterschiedliche Anzahlen von Eingabe- und Ausgabebildern als Frames, was eine nahtlose Unterstützung für Aufgaben wie Bildgenerierung, -bearbeitung, -anpassung, -zusammensetzung usw. ermöglicht. Obwohl für Bildaufgaben konzipiert, nutzen wir Videos als skalierbare Quelle für universelle Überwachung. UniReal lernt Welt-Dynamiken aus großangelegten Videos und zeigt fortgeschrittene Fähigkeiten im Umgang mit Schatten, Reflexionen, Posevariationen und Objektinteraktionen, während es auch aufkommende Fähigkeiten für neue Anwendungen aufweist.
English
We introduce UniReal, a unified framework designed to address various image generation and editing tasks. Existing solutions often vary by tasks, yet share fundamental principles: preserving consistency between inputs and outputs while capturing visual variations. Inspired by recent video generation models that effectively balance consistency and variation across frames, we propose a unifying approach that treats image-level tasks as discontinuous video generation. Specifically, we treat varying numbers of input and output images as frames, enabling seamless support for tasks such as image generation, editing, customization, composition, etc. Although designed for image-level tasks, we leverage videos as a scalable source for universal supervision. UniReal learns world dynamics from large-scale videos, demonstrating advanced capability in handling shadows, reflections, pose variation, and object interaction, while also exhibiting emergent capability for novel applications.

Summary

AI-Generated Summary

PDF314December 11, 2024