ChatPaper.aiChatPaper

ByteMorph: Avaliação da Edição de Imagens Guiada por Instruções com Movimentos Não Rígidos

ByteMorph: Benchmarking Instruction-Guided Image Editing with Non-Rigid Motions

June 3, 2025
Autores: Di Chang, Mingdeng Cao, Yichun Shi, Bo Liu, Shengqu Cai, Shijie Zhou, Weilin Huang, Gordon Wetzstein, Mohammad Soleymani, Peng Wang
cs.AI

Resumo

Editar imagens com instruções para refletir movimentos não rígidos, mudanças de perspectiva da câmera, deformações de objetos, articulações humanas e interações complexas representa um problema desafiador e ainda pouco explorado na visão computacional. As abordagens e conjuntos de dados existentes focam predominantemente em cenas estáticas ou transformações rígidas, limitando sua capacidade de lidar com edições expressivas que envolvem movimento dinâmico. Para preencher essa lacuna, apresentamos o ByteMorph, um framework abrangente para edição de imagens baseada em instruções, com ênfase em movimentos não rígidos. O ByteMorph compreende um conjunto de dados em larga escala, o ByteMorph-6M, e um modelo de linha de base robusto construído sobre o Diffusion Transformer (DiT), denominado ByteMorpher. O ByteMorph-6M inclui mais de 6 milhões de pares de edição de imagens em alta resolução para treinamento, juntamente com um benchmark de avaliação cuidadosamente curado, o ByteMorph-Bench. Ambos capturam uma ampla variedade de tipos de movimento não rígido em diversos ambientes, figuras humanas e categorias de objetos. O conjunto de dados é construído utilizando geração de dados guiada por movimento, técnicas de composição em camadas e legendagem automatizada para garantir diversidade, realismo e coerência semântica. Além disso, realizamos uma avaliação abrangente de métodos recentes de edição de imagens baseada em instruções, tanto do meio acadêmico quanto comercial.
English
Editing images with instructions to reflect non-rigid motions, camera viewpoint shifts, object deformations, human articulations, and complex interactions, poses a challenging yet underexplored problem in computer vision. Existing approaches and datasets predominantly focus on static scenes or rigid transformations, limiting their capacity to handle expressive edits involving dynamic motion. To address this gap, we introduce ByteMorph, a comprehensive framework for instruction-based image editing with an emphasis on non-rigid motions. ByteMorph comprises a large-scale dataset, ByteMorph-6M, and a strong baseline model built upon the Diffusion Transformer (DiT), named ByteMorpher. ByteMorph-6M includes over 6 million high-resolution image editing pairs for training, along with a carefully curated evaluation benchmark ByteMorph-Bench. Both capture a wide variety of non-rigid motion types across diverse environments, human figures, and object categories. The dataset is constructed using motion-guided data generation, layered compositing techniques, and automated captioning to ensure diversity, realism, and semantic coherence. We further conduct a comprehensive evaluation of recent instruction-based image editing methods from both academic and commercial domains.
PDF12June 5, 2025