ByteMorph: Оценка редактирования изображений с управлением по инструкциям с использованием нежестких преобразований
ByteMorph: Benchmarking Instruction-Guided Image Editing with Non-Rigid Motions
June 3, 2025
Авторы: Di Chang, Mingdeng Cao, Yichun Shi, Bo Liu, Shengqu Cai, Shijie Zhou, Weilin Huang, Gordon Wetzstein, Mohammad Soleymani, Peng Wang
cs.AI
Аннотация
Редактирование изображений с использованием инструкций для отражения нежестких движений, смены точек обзора камеры, деформаций объектов, артикуляций человека и сложных взаимодействий представляет собой сложную, но малоизученную проблему в области компьютерного зрения. Существующие подходы и наборы данных в основном сосредоточены на статических сценах или жестких преобразованиях, что ограничивает их способность обрабатывать выразительные правки, связанные с динамическим движением. Для устранения этого пробела мы представляем ByteMorph — комплексную платформу для редактирования изображений на основе инструкций с акцентом на нежесткие движения. ByteMorph включает крупномасштабный набор данных ByteMorph-6M и мощную базовую модель, построенную на основе Diffusion Transformer (DiT), под названием ByteMorpher. ByteMorph-6M содержит более 6 миллионов пар высококачественных изображений для обучения, а также тщательно отобранный эталонный набор для оценки ByteMorph-Bench. Оба набора охватывают широкий спектр типов нежестких движений в различных средах, фигурах человека и категориях объектов. Набор данных создан с использованием генерации данных, управляемой движением, техник послойного композитинга и автоматического создания подписей для обеспечения разнообразия, реалистичности и семантической согласованности. Мы также проводим всестороннюю оценку современных методов редактирования изображений на основе инструкций как из академической, так и из коммерческой сфер.
English
Editing images with instructions to reflect non-rigid motions, camera
viewpoint shifts, object deformations, human articulations, and complex
interactions, poses a challenging yet underexplored problem in computer vision.
Existing approaches and datasets predominantly focus on static scenes or rigid
transformations, limiting their capacity to handle expressive edits involving
dynamic motion. To address this gap, we introduce ByteMorph, a comprehensive
framework for instruction-based image editing with an emphasis on non-rigid
motions. ByteMorph comprises a large-scale dataset, ByteMorph-6M, and a strong
baseline model built upon the Diffusion Transformer (DiT), named ByteMorpher.
ByteMorph-6M includes over 6 million high-resolution image editing pairs for
training, along with a carefully curated evaluation benchmark ByteMorph-Bench.
Both capture a wide variety of non-rigid motion types across diverse
environments, human figures, and object categories. The dataset is constructed
using motion-guided data generation, layered compositing techniques, and
automated captioning to ensure diversity, realism, and semantic coherence. We
further conduct a comprehensive evaluation of recent instruction-based image
editing methods from both academic and commercial domains.