UIP2P: Неуправляемое редактирование изображений на основе инструкций с помощью циклического редактирования для обеспечения согласованности.
UIP2P: Unsupervised Instruction-based Image Editing via Cycle Edit Consistency
December 19, 2024
Авторы: Enis Simsar, Alessio Tonioni, Yongqin Xian, Thomas Hofmann, Federico Tombari
cs.AI
Аннотация
Мы предлагаем модель без учителя для редактирования изображений на основе инструкций, которая исключает необходимость в реальных отредактированных изображениях во время обучения. Существующие методы обучения с учителем зависят от наборов данных, содержащих тройки: исходное изображение, отредактированное изображение и инструкцию по редактированию. Они создаются либо с использованием существующих методов редактирования, либо с помощью аннотаций людей, что вводит предвзятость и ограничивает их способность к обобщению. Наш метод решает эти проблемы путем введения нового механизма редактирования под названием Циклическая Согласованность Редактирования (CEC), который применяет прямые и обратные редактирования на одном этапе обучения и обеспечивает согласованность в пространствах изображения и внимания. Это позволяет нам обойти необходимость в реальных отредактированных изображениях и впервые обучиться на наборах данных, включающих либо реальные пары изображение-подпись, либо тройки изображение-подпись-редакция. Мы эмпирически показываем, что наш метод без учителя лучше справляется с широким спектром редактирований с высокой точностью и достоверностью. Избавляясь от необходимости в существующих наборах данных троек, уменьшая предвзятость, связанную с методами обучения с учителем, и предлагая CEC, наша работа представляет собой значительный прогресс в разблокировании масштабирования редактирования изображений на основе инструкций.
English
We propose an unsupervised model for instruction-based image editing that
eliminates the need for ground-truth edited images during training. Existing
supervised methods depend on datasets containing triplets of input image,
edited image, and edit instruction. These are generated by either existing
editing methods or human-annotations, which introduce biases and limit their
generalization ability. Our method addresses these challenges by introducing a
novel editing mechanism called Cycle Edit Consistency (CEC), which applies
forward and backward edits in one training step and enforces consistency in
image and attention spaces. This allows us to bypass the need for ground-truth
edited images and unlock training for the first time on datasets comprising
either real image-caption pairs or image-caption-edit triplets. We empirically
show that our unsupervised technique performs better across a broader range of
edits with high fidelity and precision. By eliminating the need for
pre-existing datasets of triplets, reducing biases associated with supervised
methods, and proposing CEC, our work represents a significant advancement in
unblocking scaling of instruction-based image editing.Summary
AI-Generated Summary