ByteMorph: Evaluación de la Edición de Imágenes Guiada por Instrucciones con Movimientos No Rígidos
ByteMorph: Benchmarking Instruction-Guided Image Editing with Non-Rigid Motions
June 3, 2025
Autores: Di Chang, Mingdeng Cao, Yichun Shi, Bo Liu, Shengqu Cai, Shijie Zhou, Weilin Huang, Gordon Wetzstein, Mohammad Soleymani, Peng Wang
cs.AI
Resumen
La edición de imágenes con instrucciones para reflejar movimientos no rígidos, cambios de perspectiva de la cámara, deformaciones de objetos, articulaciones humanas e interacciones complejas, representa un problema desafiante y poco explorado en visión por computadora. Los enfoques y conjuntos de datos existentes se centran principalmente en escenas estáticas o transformaciones rígidas, lo que limita su capacidad para manejar ediciones expresivas que involucran movimiento dinámico. Para abordar esta brecha, presentamos ByteMorph, un marco integral para la edición de imágenes basada en instrucciones con énfasis en movimientos no rígidos. ByteMorph comprende un conjunto de datos a gran escala, ByteMorph-6M, y un modelo de referencia sólido basado en el Transformer de Difusión (DiT), denominado ByteMorpher. ByteMorph-6M incluye más de 6 millones de pares de edición de imágenes de alta resolución para entrenamiento, junto con un benchmark de evaluación cuidadosamente seleccionado, ByteMorph-Bench. Ambos capturan una amplia variedad de tipos de movimiento no rígido en diversos entornos, figuras humanas y categorías de objetos. El conjunto de datos se construye utilizando generación de datos guiada por movimiento, técnicas de composición por capas y subtitulado automático para garantizar diversidad, realismo y coherencia semántica. Además, llevamos a cabo una evaluación exhaustiva de los métodos recientes de edición de imágenes basados en instrucciones, tanto del ámbito académico como comercial.
English
Editing images with instructions to reflect non-rigid motions, camera
viewpoint shifts, object deformations, human articulations, and complex
interactions, poses a challenging yet underexplored problem in computer vision.
Existing approaches and datasets predominantly focus on static scenes or rigid
transformations, limiting their capacity to handle expressive edits involving
dynamic motion. To address this gap, we introduce ByteMorph, a comprehensive
framework for instruction-based image editing with an emphasis on non-rigid
motions. ByteMorph comprises a large-scale dataset, ByteMorph-6M, and a strong
baseline model built upon the Diffusion Transformer (DiT), named ByteMorpher.
ByteMorph-6M includes over 6 million high-resolution image editing pairs for
training, along with a carefully curated evaluation benchmark ByteMorph-Bench.
Both capture a wide variety of non-rigid motion types across diverse
environments, human figures, and object categories. The dataset is constructed
using motion-guided data generation, layered compositing techniques, and
automated captioning to ensure diversity, realism, and semantic coherence. We
further conduct a comprehensive evaluation of recent instruction-based image
editing methods from both academic and commercial domains.