ChatPaper.aiChatPaper

UniReal: Generación y Edición Universal de Imágenes a través del Aprendizaje de Dinámicas del Mundo Real

UniReal: Universal Image Generation and Editing via Learning Real-world Dynamics

December 10, 2024
Autores: Xi Chen, Zhifei Zhang, He Zhang, Yuqian Zhou, Soo Ye Kim, Qing Liu, Yijun Li, Jianming Zhang, Nanxuan Zhao, Yilin Wang, Hui Ding, Zhe Lin, Hengshuang Zhao
cs.AI

Resumen

Presentamos UniReal, un marco unificado diseñado para abordar diversas tareas de generación y edición de imágenes. Las soluciones existentes a menudo varían según las tareas, pero comparten principios fundamentales: preservar la consistencia entre las entradas y salidas al mismo tiempo que capturan variaciones visuales. Inspirados por modelos recientes de generación de video que equilibran eficazmente la consistencia y la variación entre fotogramas, proponemos un enfoque unificador que trata las tareas a nivel de imagen como generación de video discontinuo. Específicamente, tratamos números variables de imágenes de entrada y salida como fotogramas, lo que permite un soporte fluido para tareas como generación de imágenes, edición, personalización, composición, etc. Aunque diseñado para tareas a nivel de imagen, aprovechamos los videos como una fuente escalable para supervisión universal. UniReal aprende dinámicas del mundo a partir de videos a gran escala, demostrando una capacidad avanzada para manejar sombras, reflejos, variaciones de postura e interacción de objetos, al mismo tiempo que exhibe una capacidad emergente para aplicaciones novedosas.
English
We introduce UniReal, a unified framework designed to address various image generation and editing tasks. Existing solutions often vary by tasks, yet share fundamental principles: preserving consistency between inputs and outputs while capturing visual variations. Inspired by recent video generation models that effectively balance consistency and variation across frames, we propose a unifying approach that treats image-level tasks as discontinuous video generation. Specifically, we treat varying numbers of input and output images as frames, enabling seamless support for tasks such as image generation, editing, customization, composition, etc. Although designed for image-level tasks, we leverage videos as a scalable source for universal supervision. UniReal learns world dynamics from large-scale videos, demonstrating advanced capability in handling shadows, reflections, pose variation, and object interaction, while also exhibiting emergent capability for novel applications.
PDF314December 11, 2024