ChatPaper.aiChatPaper

ByteMorph: Benchmarken van instructiegestuurd beeldbewerken met niet-rigide bewegingen

ByteMorph: Benchmarking Instruction-Guided Image Editing with Non-Rigid Motions

June 3, 2025
Auteurs: Di Chang, Mingdeng Cao, Yichun Shi, Bo Liu, Shengqu Cai, Shijie Zhou, Weilin Huang, Gordon Wetzstein, Mohammad Soleymani, Peng Wang
cs.AI

Samenvatting

Het bewerken van afbeeldingen met instructies om niet-rigide bewegingen, camerastandpuntverschuivingen, objectvervormingen, menselijke articulaties en complexe interacties weer te geven, vormt een uitdagend maar onderbelicht probleem in de computer vision. Bestaande benaderingen en datasets richten zich voornamelijk op statische scènes of rigide transformaties, wat hun vermogen beperkt om expressieve bewerkingen met dynamische bewegingen te verwerken. Om dit gat te dichten, introduceren we ByteMorph, een uitgebreid framework voor instructiegebaseerde beeldbewerking met een focus op niet-rigide bewegingen. ByteMorph bestaat uit een grootschalige dataset, ByteMorph-6M, en een krachtig basismodel gebaseerd op de Diffusion Transformer (DiT), genaamd ByteMorpher. ByteMorph-6M bevat meer dan 6 miljoen hoogwaardige beeldbewerkingsparen voor training, samen met een zorgvuldig samengesteld evaluatiebenchmark, ByteMorph-Bench. Beide omvatten een breed scala aan niet-rigide bewegingssoorten in diverse omgevingen, menselijke figuren en objectcategorieën. De dataset is geconstrueerd met behulp van beweging-gestuurde datageneratie, gelaagde compositietechnieken en geautomatiseerde bijschrijving om diversiteit, realisme en semantische samenhang te waarborgen. We voeren verder een uitgebreide evaluatie uit van recente instructiegebaseerde beeldbewerkingsmethoden uit zowel academische als commerciële domeinen.
English
Editing images with instructions to reflect non-rigid motions, camera viewpoint shifts, object deformations, human articulations, and complex interactions, poses a challenging yet underexplored problem in computer vision. Existing approaches and datasets predominantly focus on static scenes or rigid transformations, limiting their capacity to handle expressive edits involving dynamic motion. To address this gap, we introduce ByteMorph, a comprehensive framework for instruction-based image editing with an emphasis on non-rigid motions. ByteMorph comprises a large-scale dataset, ByteMorph-6M, and a strong baseline model built upon the Diffusion Transformer (DiT), named ByteMorpher. ByteMorph-6M includes over 6 million high-resolution image editing pairs for training, along with a carefully curated evaluation benchmark ByteMorph-Bench. Both capture a wide variety of non-rigid motion types across diverse environments, human figures, and object categories. The dataset is constructed using motion-guided data generation, layered compositing techniques, and automated captioning to ensure diversity, realism, and semantic coherence. We further conduct a comprehensive evaluation of recent instruction-based image editing methods from both academic and commercial domains.
PDF12June 5, 2025