ChatPaper.aiChatPaper

UniReal: Универсальная генерация и редактирование изображений с помощью изучения динамики реального мира

UniReal: Universal Image Generation and Editing via Learning Real-world Dynamics

December 10, 2024
Авторы: Xi Chen, Zhifei Zhang, He Zhang, Yuqian Zhou, Soo Ye Kim, Qing Liu, Yijun Li, Jianming Zhang, Nanxuan Zhao, Yilin Wang, Hui Ding, Zhe Lin, Hengshuang Zhao
cs.AI

Аннотация

Мы представляем UniReal - унифицированную структуру, разработанную для решения различных задач генерации и редактирования изображений. Существующие решения часто различаются по задачам, однако они имеют общие принципы: сохранение согласованности между входными данными и результатами, улавливание визуальных вариаций. Вдохновленные недавними моделями генерации видео, которые эффективно балансируют согласованность и вариацию между кадрами, мы предлагаем объединенный подход, который рассматривает задачи на уровне изображения как дискретную генерацию видео. Конкретно, мы рассматриваем различное количество входных и выходных изображений как кадры, обеспечивая безупречную поддержку для задач, таких как генерация изображений, редактирование, настройка, композиция и т. д. Хотя разработанная для задач на уровне изображения, мы используем видео как масштабируемый источник универсального надзора. UniReal изучает динамику мира на основе масштабных видео, демонстрируя продвинутые возможности в обработке теней, отражений, изменения позы и взаимодействия объектов, а также проявляя возникновение способностей для новых приложений.
English
We introduce UniReal, a unified framework designed to address various image generation and editing tasks. Existing solutions often vary by tasks, yet share fundamental principles: preserving consistency between inputs and outputs while capturing visual variations. Inspired by recent video generation models that effectively balance consistency and variation across frames, we propose a unifying approach that treats image-level tasks as discontinuous video generation. Specifically, we treat varying numbers of input and output images as frames, enabling seamless support for tasks such as image generation, editing, customization, composition, etc. Although designed for image-level tasks, we leverage videos as a scalable source for universal supervision. UniReal learns world dynamics from large-scale videos, demonstrating advanced capability in handling shadows, reflections, pose variation, and object interaction, while also exhibiting emergent capability for novel applications.
PDF314December 11, 2024