UniReal: ユニバーサル画像生成および編集における実世界の動態の学習
UniReal: Universal Image Generation and Editing via Learning Real-world Dynamics
December 10, 2024
著者: Xi Chen, Zhifei Zhang, He Zhang, Yuqian Zhou, Soo Ye Kim, Qing Liu, Yijun Li, Jianming Zhang, Nanxuan Zhao, Yilin Wang, Hui Ding, Zhe Lin, Hengshuang Zhao
cs.AI
要旨
UniRealという統一されたフレームワークを紹介します。このフレームワークは、さまざまな画像生成および編集タスクに対処するために設計されています。既存の解決策はタスクによって異なりますが、入出力間の一貫性を保ちながら視覚的な変化を捉えるという基本原則を共有しています。最近のビデオ生成モデルから着想を得て、フレーム間で一貫性と変化を効果的にバランスさせる方法を提案します。画像レベルのタスクを不連続なビデオ生成として扱う統一的なアプローチを提案します。具体的には、異なる数の入力および出力画像をフレームとして扱い、画像生成、編集、カスタマイズ、合成などのタスクをシームレスにサポートします。画像レベルのタスク向けに設計されていますが、普遍的な監督情報源としてビデオを活用しています。UniRealは大規模なビデオから世界のダイナミクスを学習し、影、反射、ポーズの変化、オブジェクトの相互作用を処理する高度な能力を示し、新しいアプリケーションに対する新たな能力も示しています。
English
We introduce UniReal, a unified framework designed to address various image
generation and editing tasks. Existing solutions often vary by tasks, yet share
fundamental principles: preserving consistency between inputs and outputs while
capturing visual variations. Inspired by recent video generation models that
effectively balance consistency and variation across frames, we propose a
unifying approach that treats image-level tasks as discontinuous video
generation. Specifically, we treat varying numbers of input and output images
as frames, enabling seamless support for tasks such as image generation,
editing, customization, composition, etc. Although designed for image-level
tasks, we leverage videos as a scalable source for universal supervision.
UniReal learns world dynamics from large-scale videos, demonstrating advanced
capability in handling shadows, reflections, pose variation, and object
interaction, while also exhibiting emergent capability for novel applications.Summary
AI-Generated Summary