ChatPaper.aiChatPaper

UIP2P: Неуправляемое редактирование изображений на основе инструкций с помощью циклического редактирования для обеспечения согласованности.

UIP2P: Unsupervised Instruction-based Image Editing via Cycle Edit Consistency

December 19, 2024
Авторы: Enis Simsar, Alessio Tonioni, Yongqin Xian, Thomas Hofmann, Federico Tombari
cs.AI

Аннотация

Мы предлагаем модель без учителя для редактирования изображений на основе инструкций, которая исключает необходимость в реальных отредактированных изображениях во время обучения. Существующие методы обучения с учителем зависят от наборов данных, содержащих тройки: исходное изображение, отредактированное изображение и инструкцию по редактированию. Они создаются либо с использованием существующих методов редактирования, либо с помощью аннотаций людей, что вводит предвзятость и ограничивает их способность к обобщению. Наш метод решает эти проблемы путем введения нового механизма редактирования под названием Циклическая Согласованность Редактирования (CEC), который применяет прямые и обратные редактирования на одном этапе обучения и обеспечивает согласованность в пространствах изображения и внимания. Это позволяет нам обойти необходимость в реальных отредактированных изображениях и впервые обучиться на наборах данных, включающих либо реальные пары изображение-подпись, либо тройки изображение-подпись-редакция. Мы эмпирически показываем, что наш метод без учителя лучше справляется с широким спектром редактирований с высокой точностью и достоверностью. Избавляясь от необходимости в существующих наборах данных троек, уменьшая предвзятость, связанную с методами обучения с учителем, и предлагая CEC, наша работа представляет собой значительный прогресс в разблокировании масштабирования редактирования изображений на основе инструкций.
English
We propose an unsupervised model for instruction-based image editing that eliminates the need for ground-truth edited images during training. Existing supervised methods depend on datasets containing triplets of input image, edited image, and edit instruction. These are generated by either existing editing methods or human-annotations, which introduce biases and limit their generalization ability. Our method addresses these challenges by introducing a novel editing mechanism called Cycle Edit Consistency (CEC), which applies forward and backward edits in one training step and enforces consistency in image and attention spaces. This allows us to bypass the need for ground-truth edited images and unlock training for the first time on datasets comprising either real image-caption pairs or image-caption-edit triplets. We empirically show that our unsupervised technique performs better across a broader range of edits with high fidelity and precision. By eliminating the need for pre-existing datasets of triplets, reducing biases associated with supervised methods, and proposing CEC, our work represents a significant advancement in unblocking scaling of instruction-based image editing.

Summary

AI-Generated Summary

PDF53December 20, 2024