ObjectMover: Geração de Movimento de Objetos com Prior de Vídeo
ObjectMover: Generative Object Movement with Video Prior
March 11, 2025
Autores: Xin Yu, Tianyu Wang, Soo Ye Kim, Paul Guerrero, Xi Chen, Qing Liu, Zhe Lin, Xiaojuan Qi
cs.AI
Resumo
Por mais simples que pareça, mover um objeto para outro local dentro de uma imagem é, na verdade, uma tarefa desafiadora de edição de imagens que requer reharmonização da iluminação, ajuste da pose com base na perspectiva, preenchimento preciso de regiões ocluídas e garantia de sincronização coerente de sombras e reflexos, mantendo a identidade do objeto. Neste artigo, apresentamos o ObjectMover, um modelo generativo capaz de realizar o movimento de objetos em cenas altamente desafiadoras. Nossa principal percepção é que modelamos essa tarefa como um problema de sequência para sequência e ajustamos finamente um modelo de geração de vídeo para aproveitar seu conhecimento de geração consistente de objetos entre os quadros de vídeo. Mostramos que, com essa abordagem, nosso modelo é capaz de se adaptar a cenários complexos do mundo real, lidando com harmonização extrema de iluminação e movimento de efeitos de objetos. Como dados em larga escala para movimento de objetos não estão disponíveis, construímos um pipeline de geração de dados usando um motor de jogo moderno para sintetizar pares de dados de alta qualidade. Além disso, propomos uma estratégia de aprendizado multitarefa que permite o treinamento em dados de vídeo do mundo real para melhorar a generalização do modelo. Por meio de extensos experimentos, demonstramos que o ObjectMover alcança resultados excepcionais e se adapta bem a cenários do mundo real.
English
Simple as it seems, moving an object to another location within an image is,
in fact, a challenging image-editing task that requires re-harmonizing the
lighting, adjusting the pose based on perspective, accurately filling occluded
regions, and ensuring coherent synchronization of shadows and reflections while
maintaining the object identity. In this paper, we present ObjectMover, a
generative model that can perform object movement in highly challenging scenes.
Our key insight is that we model this task as a sequence-to-sequence problem
and fine-tune a video generation model to leverage its knowledge of consistent
object generation across video frames. We show that with this approach, our
model is able to adjust to complex real-world scenarios, handling extreme
lighting harmonization and object effect movement. As large-scale data for
object movement are unavailable, we construct a data generation pipeline using
a modern game engine to synthesize high-quality data pairs. We further propose
a multi-task learning strategy that enables training on real-world video data
to improve the model generalization. Through extensive experiments, we
demonstrate that ObjectMover achieves outstanding results and adapts well to
real-world scenarios.Summary
AI-Generated Summary