UniReal: Универсальная генерация и редактирование изображений с помощью изучения динамики реального мира
UniReal: Universal Image Generation and Editing via Learning Real-world Dynamics
December 10, 2024
Авторы: Xi Chen, Zhifei Zhang, He Zhang, Yuqian Zhou, Soo Ye Kim, Qing Liu, Yijun Li, Jianming Zhang, Nanxuan Zhao, Yilin Wang, Hui Ding, Zhe Lin, Hengshuang Zhao
cs.AI
Аннотация
Мы представляем UniReal - унифицированную структуру, разработанную для решения различных задач генерации и редактирования изображений. Существующие решения часто различаются по задачам, однако они имеют общие принципы: сохранение согласованности между входными данными и результатами, улавливание визуальных вариаций. Вдохновленные недавними моделями генерации видео, которые эффективно балансируют согласованность и вариацию между кадрами, мы предлагаем объединенный подход, который рассматривает задачи на уровне изображения как дискретную генерацию видео. Конкретно, мы рассматриваем различное количество входных и выходных изображений как кадры, обеспечивая безупречную поддержку для задач, таких как генерация изображений, редактирование, настройка, композиция и т. д. Хотя разработанная для задач на уровне изображения, мы используем видео как масштабируемый источник универсального надзора. UniReal изучает динамику мира на основе масштабных видео, демонстрируя продвинутые возможности в обработке теней, отражений, изменения позы и взаимодействия объектов, а также проявляя возникновение способностей для новых приложений.
English
We introduce UniReal, a unified framework designed to address various image
generation and editing tasks. Existing solutions often vary by tasks, yet share
fundamental principles: preserving consistency between inputs and outputs while
capturing visual variations. Inspired by recent video generation models that
effectively balance consistency and variation across frames, we propose a
unifying approach that treats image-level tasks as discontinuous video
generation. Specifically, we treat varying numbers of input and output images
as frames, enabling seamless support for tasks such as image generation,
editing, customization, composition, etc. Although designed for image-level
tasks, we leverage videos as a scalable source for universal supervision.
UniReal learns world dynamics from large-scale videos, demonstrating advanced
capability in handling shadows, reflections, pose variation, and object
interaction, while also exhibiting emergent capability for novel applications.