ChatPaper.aiChatPaper

UniReal: Geração e Edição Universal de Imagens via Aprendizado de Dinâmicas do Mundo Real

UniReal: Universal Image Generation and Editing via Learning Real-world Dynamics

December 10, 2024
Autores: Xi Chen, Zhifei Zhang, He Zhang, Yuqian Zhou, Soo Ye Kim, Qing Liu, Yijun Li, Jianming Zhang, Nanxuan Zhao, Yilin Wang, Hui Ding, Zhe Lin, Hengshuang Zhao
cs.AI

Resumo

Apresentamos o UniReal, um framework unificado projetado para lidar com várias tarefas de geração e edição de imagens. As soluções existentes frequentemente variam de acordo com as tarefas, mas compartilham princípios fundamentais: preservar a consistência entre entradas e saídas enquanto capturam variações visuais. Inspirados em modelos recentes de geração de vídeo que equilibram efetivamente consistência e variação entre frames, propomos uma abordagem unificadora que trata tarefas em nível de imagem como geração de vídeo descontínuo. Especificamente, tratamos números variados de imagens de entrada e saída como frames, possibilitando suporte contínuo para tarefas como geração de imagens, edição, personalização, composição, etc. Embora projetado para tarefas em nível de imagem, aproveitamos vídeos como uma fonte escalável para supervisão universal. O UniReal aprende dinâmicas do mundo a partir de vídeos em larga escala, demonstrando capacidade avançada no tratamento de sombras, reflexos, variação de pose e interação de objetos, além de exibir capacidade emergente para novas aplicações.
English
We introduce UniReal, a unified framework designed to address various image generation and editing tasks. Existing solutions often vary by tasks, yet share fundamental principles: preserving consistency between inputs and outputs while capturing visual variations. Inspired by recent video generation models that effectively balance consistency and variation across frames, we propose a unifying approach that treats image-level tasks as discontinuous video generation. Specifically, we treat varying numbers of input and output images as frames, enabling seamless support for tasks such as image generation, editing, customization, composition, etc. Although designed for image-level tasks, we leverage videos as a scalable source for universal supervision. UniReal learns world dynamics from large-scale videos, demonstrating advanced capability in handling shadows, reflections, pose variation, and object interaction, while also exhibiting emergent capability for novel applications.
PDF314December 11, 2024