ByteMorph: Benchmark per la Modifica di Immagini Guidata da Istruzioni con Movimenti Non Rigidi
ByteMorph: Benchmarking Instruction-Guided Image Editing with Non-Rigid Motions
June 3, 2025
Autori: Di Chang, Mingdeng Cao, Yichun Shi, Bo Liu, Shengqu Cai, Shijie Zhou, Weilin Huang, Gordon Wetzstein, Mohammad Soleymani, Peng Wang
cs.AI
Abstract
La modifica delle immagini con istruzioni per riflettere movimenti non rigidi, cambiamenti del punto di vista della fotocamera, deformazioni degli oggetti, articolazioni umane e interazioni complesse rappresenta un problema impegnativo e ancora poco esplorato nel campo della visione artificiale. Gli approcci e i dataset esistenti si concentrano principalmente su scene statiche o trasformazioni rigide, limitando la loro capacità di gestire modifiche espressive che coinvolgono movimenti dinamici. Per colmare questa lacuna, introduciamo ByteMorph, un framework completo per la modifica delle immagini basata su istruzioni, con un'enfasi sui movimenti non rigidi. ByteMorph comprende un dataset su larga scala, ByteMorph-6M, e un solido modello di riferimento basato sul Diffusion Transformer (DiT), denominato ByteMorpher. ByteMorph-6M include oltre 6 milioni di coppie di immagini ad alta risoluzione per l'addestramento, insieme a un benchmark di valutazione accuratamente curato, ByteMorph-Bench. Entrambi catturano una vasta gamma di tipi di movimento non rigido in ambienti diversi, figure umane e categorie di oggetti. Il dataset è costruito utilizzando la generazione di dati guidata dal movimento, tecniche di composizione a strati e didascalie automatizzate per garantire diversità, realismo e coerenza semantica. Inoltre, conduciamo una valutazione completa dei recenti metodi di modifica delle immagini basati su istruzioni provenienti sia dal mondo accademico che da quello commerciale.
English
Editing images with instructions to reflect non-rigid motions, camera
viewpoint shifts, object deformations, human articulations, and complex
interactions, poses a challenging yet underexplored problem in computer vision.
Existing approaches and datasets predominantly focus on static scenes or rigid
transformations, limiting their capacity to handle expressive edits involving
dynamic motion. To address this gap, we introduce ByteMorph, a comprehensive
framework for instruction-based image editing with an emphasis on non-rigid
motions. ByteMorph comprises a large-scale dataset, ByteMorph-6M, and a strong
baseline model built upon the Diffusion Transformer (DiT), named ByteMorpher.
ByteMorph-6M includes over 6 million high-resolution image editing pairs for
training, along with a carefully curated evaluation benchmark ByteMorph-Bench.
Both capture a wide variety of non-rigid motion types across diverse
environments, human figures, and object categories. The dataset is constructed
using motion-guided data generation, layered compositing techniques, and
automated captioning to ensure diversity, realism, and semantic coherence. We
further conduct a comprehensive evaluation of recent instruction-based image
editing methods from both academic and commercial domains.